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内 容 提 要 


这 是 一 本 以 全 新 视角 讲解 概率 统计 的 入 门 书 。 抛 开 经 典 的 数学 分 析 ，Downey 手把手 教 你 用 
编程 理解 统计 学 。 有 具体 说 来 , 本 书 通过 一 个 案例 研究 , 介绍 探索 性 数据 分 析 的 全 过 程 :从 收集 数据 、 
生成 统计 信息 , 到 发 现 模式 、 验 证 假设 。 同 时 研究 分 布 、 概 率 规则 、 可 视 化 和 其 他 多 种 工具 及 概念 。 
此 外 ， 第 2 版 新 增 了 回归 、 时 间 序 列 分 析 、 生 存 分 析 和 分 析 方 法 等 章节 。 

本 书 既 适 合作 为 教材 ， 又 适合 作为 程序 员 学 习 概率 统计 的 参考 书 ， 也 适合 作为 非 程序 员 了 解 
概率 统计 与 编程 的 工具 书 。 
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O'Reilly Media, Inc. 介 绍 


O"Reilly Media 通过 图 书 、 杂 志 、 在 线 服 务 、 调 查 研究 和 会 议 等 方式 传播 创新 知识 。 
自 1978 年 开始 ，O’Reilly 一 直 都 是 前 沿 发 展 的 见证 者 和 推动 者 。 超 级 极 客 们 正在 开创 
着 未 来 ， 而 我 们 关注 真正 重要 的 技术 趋势 一 一 通过 放大 那些 “细微 的 信号 ”来 刺激 社 
会 对 新 科技 的 应 用 。 作 为 技术 社区 中 活跃 的 参与 者 ，O’Reilly 的 发 展 充满 了 对 创新 的 
倡导 、 创 造 和 发 扬 光 大 。 


O"Reilly 为 软件 开发 人 员 带 来 革命 性 的 “动物 书 ”， 创 建 第 一 个 商业 网 站 (GNN) ; 组 
织 了 影响 深远 的 开放 源 代 码 峰会 ， 以 至 于 开源 软件 运动 以 此 命名 ， 创立 了 Make 杂志 ， 
从 而 成 为 DIY 革命 的 主要 先锋 ， 公 司 一 如 既往 地 通过 多 种 形式 缔结 信息 与 人 的 纽带 。 
O’Reilly 的 会 议和 峰会 集聚 了 众多 超级 极 客 和 高 瞻 远 瞩 的 商业 领袖 ， 共 同 描绘 出 开创 
新 产业 的 革命 性 思想 。 作 为 技术 人 士 获取 信息 的 选择 ，O"Reilly 现在 还 将 先锋 专家 的 
知识 传递 给 普通 的 计算 机 用 户 。 无 论 是 通过 书籍 出 版 、 在 线 服务 或 者 面授 课程 ， 每 一 





























项 OReilly 的 产品 都 反映 了 公司 不 可 动摇 的 理念 一 一 信息 是 激发 创新 的 力量 。 
业界 评论 
“O'"Reilly Radar 博客 有 口 党 碑 。” 





Wired 


“O’Reilly 凭借 一 系列 ( 真希 望 当初 我 也 想到 了 ) 非凡 想法 建立 了 数 百 万 美元 的 业务 。” 


Business 2.0 





“O'Reilly Conference 是 聚集 关键 思想 领袖 的 绝对 典范 。” 
一 一 CRN 


“一 本 O'Reilly 的 书 就 代表 一 个 有 用 、 有 前 途 、 需 要 学 习 的 主题 。 


Trish Times 





“Tim 是 位 特 立 独行 的 商人 ， 他 不 光 放 眼 于 最 长 远 、 最 广阔 的 视野 ， 并 且 切 实地 按照 
Yogi Berra 的 建议 去 做 了 :“ 如 果 你 在 路 上 遇 到 岔路 口 ， 走 小 路 ( 岔路 ) ”回顾 过 去 ， 
Tim 似乎 每 一 次 都 选择 了 小 路 ,而且 有 几 次 都 是 一 闪 即 逝 的 机 会 ， 尽管 大 路 也 不 错 。” 


Linux Journal 
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本 书 介绍 探索 性 数据 分 析 的 实用 工具 ， 书 中 章节 按照 我 自己 处 理 数据 集 时 遵循 的 步 又 进行 


组 织 


一 \o 





导入 和 清洗 : 无 论 数据 格式 如 何 ， 我 们 通常 都 需要 花费 一 些 时 间 和 精力 进行 数据 的 
读 取 、 清 洗 和 变换 ， 并 进行 检查 ， 以 确保 在 此 过 程 中 信息 完好 无 损 。 

单 变量 探索 : 通常 情况 下 ， 我 会 首先 逐个 检查 变量 ， 和 弄 清 变量 的 意义 ， 分 析 变 量 值 
的 分 布 ， 选 择 合适 的 汇总 统计 量 。 

成 对 探索 : 为 了 发 现 变量 之 间 的 关系 ， 我 会 分 析 表 格 和 散 点 图 ， 计 算 相 关 性 并 进行 
线性 拟 合 。 

多 变量 分 析 : 如 果 变 量 之 间 存 在 明显 关系 ， 我 就 要 使 用 多 元 回归 以 增加 控制 变 
从 而 研究 更 复杂 的 关联 关系 。 

估计 和 假设 检验 : 在 汇报 统计 结果 时 , 有 3 个 重要 问题 需要 回答 。 效 应 规模 如 何 ? 
再 次 运行 同一 测量 时 ， 预 期 的 变化 性 有 多 大 ?这 个 明显 的 效应 是 否 可 能 是 偶然 产 
生 的 ? 

可 视 化 : 在 数据 探索 中 ， 可 视 化 是 寻找 可 能 关系 和 效应 的 一 个 重要 工具 。 如 果 一 个 
明显 的 效应 是 统计 显著 的 ， 那 么 可 视 化 可 以 帮助 我 们 有 效 地 展示 结果 。 
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本 书 采用 的 是 计算 方法 。 相 比 数学 方法 ， 计 算 方法 具有 如 下 优点 。 


大 多 数 概念 用 Python 代码 进行 展示 ， 而 非 数 学 符号 。 总 体 而 言 ，Python 代码 的 可 
读 性 更 好 ， 而 且 这 些 代 码 是 可 执行 的 ， 读 者 可 以 下 载 、 运 行 并 进行 修改 。 

每 一 章 都 附 有 练习 ， 可 以 帮助 读者 扩展 并 巩固 知识 。 编 写 程序 时 ， 你 把 自己 对 知识 
的 理解 表达 为 代码 ， 调 试 代码 时 ， 这 些 理解 也 可 以 得 到 修正 。 

一 些 练习 使 用 了 实验 检验 统计 行为 。 例 如 ， 你 可 以 通过 生成 随机 样本 并 计算 它们 的 
总 和 来 探索 中 心 极限 定理 (Central Limit Theorem，CLT)。 练 习 得 到 的 可 视 化 结果 
展示 了 CLT 的 工作 原理 及 适用 条 件 。 
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。 一 些 概念 很 难 从 数学 角度 进行 理解 ， 却 很 容易 通过 模拟 掌握 。 例 如 ， 通 过 运行 随机 
模拟 对 p 值 进行 近似 ， 可 以 增强 我 们 对 p 值 含义 的 理解 。 

。 由 于 本 书 使 用 通用 编程 语言 (Python) ， 因 此 读者 几乎 可 以 从 任何 数据 源 导 入 数据 ， 
而 不 必 受 限于 使 用 特定 统计 工具 进行 了 清洗 和 格式 化 的 数据 集 。 

本 书 使 用 基于 项 目的 方法 。 在 我 的 课堂 上 ， 学 生 需 要 完成 一 个 为 期 一 个 学 期 的 项 目 。 在 项 

目 中 ， 学 生 要 提出 一 个 统计 问题 ， 寻 找 可 以 解决 这 个 问题 的 数据 集 ， 并 将 学 到 的 各 种 技术 

应 用 于 这 个 数据 集 。 

为 了 展示 我 采用 的 统计 分 析 方法 ， 本 书 将 介绍 一 个 贯穿 各 章 的 案例 。 这 个 案例 使 用 的 数据 

来 自 以 下 两 方面 资源 。 



































。 全 国家 庭 增 长 调查 (National Survey of Family Growth，NSFG) ， 这 一 调查 由 美国 
疾病 控制 和 预防 中 心 (Center for Disease Control and Prevention，CDC) 开展 ， 以 
收集 “与 家 庭 生 活 、 婚 姻 状 况 、 妊 娠 情况 、 生 育 情 况 、 避 孕 情况 ， 以 及 两 性 健康 
相关 的 信息 ”。 参 见 http://cdc.gov/nchs/nsfg.htm。 

。 行为 危险 因素 监测 系统 (Behavioral Risk Factor Surveillance System，BRFSS),， 由 








国家 慢性 病 预 防 和 健康 促进 中 心 (National Center for Chronic Disease Prevention and 


Health Promotion) 主持 ， 以 “跟踪 美国 的 健康 状况 及 风险 行为 "。 参 见 http:/cdc. 
gov/BRFSS/。 





其 他 示例 使 用 的 数据 来 自 美国 国税 局 (IRS)、 美 国人 口 普查 (U.S. Census) 及 波士顿 马 拉 
公 赛 (Boston Marathon ) 。 











《统计 思维 》 的 第 2 版 包含 了 第 1 版 的 各 章 ， 但 对 其 中 很 多 内 容 进 行 了 大 幅 修改 ， 并 新 增 


了 关于 回归 








、 时 间 序 列 分 析 、 生 存 分 析 和 分 析 方 法 的 章节 。 本 书 第 1 版 没有 使 用 pandas、 





SciPy 和 StatsModels， 所 以 这 些 内 容 也 都 是 新 增 的 。 


写作 思路 


人 们 在 编写 新 教材 时 ， 通 常会 参考 已 有 教材 。 这 样 做 的 结果 就 是 ， 大 部 分 图 书 都 采用 相似 
的 结构 顺序 叙述 相似 的 内 容 。 


我 没有 这 样 做 。 实 际 上 ， 在 撰写 本 书 时 出 于 以 下 几 点 著 虑 ， 我 几乎 没有 使 用 任何 纸 质 资料 。 


。 我 的 目的 是 探索 新 方法 ， 因 此 不 想 过 多 介绍 已 有 方法 。 
。 既然 本 书 的 授权 是 免费 的 ， 那 么 我 希望 书 中 所 有 的 内 容 都 不 受 版 权限 制 。 
。 我 的 很 多 读者 都 无 法 到 提供 纸 质 资料 的 图 书馆 去 ， 因 此 我 尽量 引用 互联 网 上 的 免费 











资源 。 









































。 一 些 传 统 媒体 的 支持 者 认为 ， 只 使 用 电子 资料 是 偷懒 且 不 可 靠 的 做 法 。 关 于 偷懒 ， 
他 们 可 能 说 对 了 , 但 是 我 不 认为 电子 资料 不 可 靠 , 因此 希望 对 自己 的 理论 进行 验证 。 


我 使 用 最 多 的 资源 是 维基 百科 〈Wikipedia) 。 总 的 来 说 ， 我 在 维基 百科 上 读 到 的 统计 资料 
都 很 不 错 (但 是 我 在 后 续 也 做 了 一 些小 的 改动 )。 本 书 多 处 引用 了 维基 百科 页 面 ， 希 望 你 
能 通过 提供 的 链接 阅读 这 些 资料 。 很 多 时 候 ， 维 基 百 科 页 面 是 本 书 内 容 的 补充 。 除 去 我 认 
为 必要 的 修改 ， 书 中 使 用 的 术语 和 符号 与 维基 百科 基本 一 致 。 另 外 两 个 我 觉得 有 用 的 资源 
是 Wolfram Mathworld 和 Reddit 统计 论坛 (http://www.reddit.com/r/statistics) 。 


本 书 代码 


本 书 使 用 的 代码 和 数据 都 可 从 GitHub (htts://github.com/AllenDoweny/ThinkStats2) 下 载 。 
Git 是 一 个 版 本 管理 系统 ， 可 以 对 项 目 文件 进行 跟踪 。 受 Git 管理 的 文件 集 称 为 代码 库 
(repository ) 。GitHub 是 一 项 托管 服务 ， 可 以 存储 Git 代码 库 ， 并 提供 一 个 便于 使 用 的 Web 
接口 。 


我 的 GitHub 主页 提供 以 下 几 种 使 用 代码 的 方法 。 


。 你 可 以 点 击 Fork 按钮 ， 在 GitHub 上 创建 该 代码 库 的 副本 。 如 果 你 还 没有 GitHub 
账号 ， 就 需要 创建 一 个 。 创 建 副 本 之 后 ， 你 就 在 GitHub 上 拥有 了 自己 的 代码 库 ， 
可 以 跟踪 学 习 本 书 时 编写 的 代码 。 之 后 你 可 以 复制 这 个 代码 库 ， 即 将 文件 复制 到 自 

己 的 计算 机 上 。 

。 或 者 ， 你 也 可 以 复制 我 的 代码 库 。 这 一 操作 不 需要 GitHub 账号 ， 但 是 你 对 代码 所 
做 的 修改 无 法 写 回 GitHub。 

。 如 果 你 完全 不 想 使 用 Git， 那 么 可 以 点 击 GitHub 页 面 右 下 角 的 按钮 ， 下 载 文件 的 
Zip 包 。 




































































本 书 所 有 代码 都 无 需 翻译 即 可 在 Python 2 和 Python 3 中 直接 运行 。 





EM 


写本 书 代 码 时 ， 我 使 用 的 是 Continuum Analytics 的 Anaconda， 这 是 一 个 免费 的 Python 
版 本 ， 其 中 带 有 运行 本 书 代码 所 需 的 所 有 软件 包 (还 有 很 多 其 他 包 )。Anaconda 很 容 
易 安装 。 默 认 情 况 下 ，Anaconda 进行 用 户 级 而 非 系 统 级 安装 ， 因 此 不 需要 管理 员 权 
限 。Anaconda 同时 支持 Python 2 和 Python 3， 你 可 以 从 Continuum (http://continuum.io/ 
downloads) 进行 下 载 。 








如 果 你 不 想 使 用 Anaconda， 那 么 需要 安装 以 下 软件 包 。 


。 pandas， 进 行 数据 的 表示 和 分 析 。 下 载 地 址 为 : http://pandas.pydata.org/。 
。 NumPy， 支 持 基 本 的 数字 运算 。 下 载 地 址 为 : http:/www.numpy.org/。 





。 SciPy， 进 行 科 学 计算 ， 包 括 统计 和 运算。 下载 地 址 为 : http://www.scipy.org/。 
。 StatsModels， 进 行 回归 分 析 和 其 他 统计 分 析 。 下 载 地 址 为 : http://statsmodels. 
sourceforge.net/。 


。 matplotlib， 支 持 可 视 化 。 





下载 地 址 为 :http://matplotlib.org/。 





虽然 这 些 都 是 常用 软件 包 ， 但 并 不 是 所 有 的 Python 安装 都 包含 这 些 包 ， 而 且 在 有 些 环境 下 
很 难 进 行 安装 。 如 果 你 无 法 安装 这 些 包 ， 我 强烈 建议 你 使 用 Anaconda， 或 者 包含 这 些 包 的 
其 他 Python 版 本 。 












































当 你 复制 完 代 码 库 或 者 将 Zip 包 解 压 后 ， 会 得 到 一 个 名 为 ThinkStats2/code 的 文件 夹 ， 其 中 
有 一 个 nsfg.py 文件 。 运 行 nsfg.py 会 读 取 一 个 数据 文件 ， 运 行 一 些 测 试 ， 并 输出 一 条 消息 ， 
如 “Alltests passed”。 如 果 你 得 到 的 是 import error， 可 能 是 因为 缺少 某 些 必要 的 软件 包 。 














本 书 的 大 部 分 练习 都 使 用 Python 脚本 ， 但 也 有 一 些 使 用 IPython 记事 本 。 如 果 你 之 前 没有 
用 过 IPython 记事 本 ， 可 以 访问 文档 http://ipython.org/ipython-doc/stable/notebook/notebook. 
html 得 到 帮助 。 











本 书 读者 应 该 熟悉 Python 的 核心 功能 ， 包 括 面向 对 象 的 特征 ， 但 无 需 具备 pandas、NumPy 
和 SciPy 知识 。 如 果 你 已 经 熟知 这 些 模块 ， 可 以 跳 过 一 些 相关 小 节 。 











本 书 读者 应 该 了 解 基本 的 数学 知识 ， 例 如 对 数 和 求 和 。 本 书 中 有 儿 处 会 涉及 微 积分 概念 ， 
但 你 无 需 进 行 微 积分 运算 。 





如 果 你 从 未 学 习 过 统计 学 ， 本 书 会 是 一 本 很 好 的 入 门 教材 。 如 果 你 学 习 过 传统 的 统计 学 课 
程 ， 那 么 我 希望 本 书 能 够 修正 你 过 去 接受 的 一 些 错误 观点 。 








Allen B. Downey 是 一 位 计算 机 科学 教授 ， 执 教 于 美国 马 辽 诸 塞 州 尼 德 姆 的 富兰克林 欧 林 工 


程 学 院 。 
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第 1 章 


探索 性 数据 分 析 





如 果 能 将 数据 与 实际 方法 相 结合 ， 就 可 以 在 存在 不 确定 性 时 解答 问题 并 指导 决策 ， 这 就 是 
本 书 的 主题 。 

举 个 例子 。 我 的 妻子 在 怀 第 一 胎 时 ， 我 听 到 了 一 个 问题 : 第 一 胎 是 不 是 经 常 晚 于 预产期 出 
生 ? 下 面 所 给 出 的 案例 研究 就 是 由 这 个 问题 引出 的 。 

如 有 果 用 谷歌 搜索 这 个 问题 ， 会 看 到 大 量 的 讨论 。 有 人 认为 第 一 胎 的 生产 日 期 确实 经 常 晚 于 
预产期 ， 有 人 认为 这 是 无 稽 之 谈 ， 还 有 人 认为 恰恰 相反 ， 第 一 胎 常 常会 早产 。 
































在 很 多 此 类 讨论 中 ， 人 们 会 提供 数据 来 支持 自己 的 观点 。 我 发 现 很 多 论据 是 下 面 这 样 的 。 


“我 有 两 个 朋友 最 近 都 刚 生 了 第 一 个 孩子 ， 她 们 都 是 超过 预产期 差不多 两 周 才 出 
现 临 产 征兆 或 进行 众 产 的 。 

“我 的 第 一 个 孩子 是 过 了 预产期 两 周 才 出 生 的 ， 我 觉得 第 二 个 孩子 可 能 会 早产 两 
周 ! ” 

“我 认为 这 种 说 法 不 对 ， 因 为 我 姐姐 是 头 生 子 ， 而且 是 早产 儿 。 我 还 有 好 些 表 见 


这 些 说 法 都 是 基于 未 公开 的 数据 ， 通 常 来 自 个 人 经 验 ， 因 此 称 为 软 事 证 据 (anecdotal 
evidence)。 在 闲聊 时 讲 讲 轶 事 当 然 无 可 厚 非 ， 所 以 我 并 不 是 要 批评 以 上 那儿 个 人 。 





但 是 ， 我 们 可 能 需要 更 具 说 服 力 的 证 据 以 及 更 可 靠 的 回答 。 如 果 按 照 这 个 标准 进行 衡量 ， 
轶 事 证 据 通 常 都 靠不住 ， 原 因 有 如 下 几 点 。 








观测 值 数 量 较 小 
如 果 第 一 胎 的 孕期 的 确 偏 长 ， 这 个 时 间 差 与 正常 的 偏差 相 比 可 能 很 小 。 在 这 种 情况 下 ， 
我 们 可 能 需要 比 对 大 量 的 孕期 数据 ， 才 能 确定 这 种 时 间 差 确实 存在 。 

















选择 数据 时 存在 偏 侍 
人 们 之 所 以 参与 这 个 问题 的 讨论 ， 有 可 能 是 因为 自己 的 第 一 个 孩子 出 生 较 晚 。 这 样 的 
话 ， 这 个 选择 数据 的 过 程 就 会 对 结果 产生 影响 。 




















确认 数据 时 存在 偏 倚 
赞同 这 种 说 法 的 人 也 许 更 可 能 提供 例子 进行 佐证 。 持 怀疑 态度 的 人 则 更 可 能 引用 反例 。 














不 精确 
轶 事 通常 都 是 个 人 经 验 ， 经 常会 记 错 、 误 传 或 者 误解 等 。 


那 我 们 该 如 何 更 好 地 回答 这 个 问题 呢 ? 


1.1 统计 学 方法 


为 了 解决 轶 事 证 据 的 局 限 性 ， 我 们 将 使 用 以 下 统计 学 工具 。 


数据 收集 
我 们 将 使 用 大 型 的 全 国 性 调查 数据 ， 这 个 调查 专门 设计 用 于 对 美国 人 口 进 行 有 效 的 统计 
推断 。 


描述 性 统计 
得 出 统计 量 ， 对 数据 进行 简要 的 汇总 ， 并 评估 可 视 化 数据 的 不 同方 法 。 











探索 性 数据 分 析 
寻找 各 种 模式 、 差 异 ， 以 及 其 他 能 够 解决 我 们 感 兴趣 的 问题 的 特征 ， 同 时 还 将 检查 数据 
的 不 一 致 性 ， 发 现 局 限 性 。 





估计 
使 用 样本 数据 来 估计 一 般 总 体 的 统计 特征 。 
假设 检验 








如 果 看 到 明显 的 效应 ， 例 如 两 个 群 组 之 间 存 在 差异 ， 将 衡量 该 效应 是 否 是 偶然 产生 的 。 




















谨慎 执 行 上 面 的 步骤 ， 并 避免 各 种 错误 ， 我 们 就 可 以 获得 合理 性 和 准确 性 更 高 的 结论 。 


1.2 全 国家 庭 增长 调查 


从 1973 年 起 ， 美 国 疾病 控制 和 预防 中 心 (CDC) 就 开始 进行 全 国家 庭 增长 调查 (NSFG， 
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http://cdc.ogv/nchs/nsfg.htm)， 以 收集 “与 家 庭 生 活 、 婚 姻 状况 、 妊 娠 情况 、 生 育 情况 、 避 
孕 情 况 ， 以 及 两 性 健康 相关 的 信息 。 此 项 调查 的 结果 用 于 …… 进 行 健康 服务 和 健康 教育 项 
目的 规划 ， 以 及 对 家 庭 、 生 育 及 健康 情况 进行 统计 研究 ”。 


我 们 将 使 用 这 项 调查 收集 到 的 数据 研究 第 一 胎 是 否 出 生 较 晚 ， 并 
有 效 地 使 用 这 些 数据 ， 我 们 必须 理解 这 项 研究 是 如 何 设 计 的 。 


全 国家 庭 增长 调查 是 一 项 横 截 面 〈cross-sectional) 研究 ， 也 就 是 说 该 研究 捕获 的 是 一 个 群 
组 在 某 一 时 刻 的 快照 。 在 横 截 面 研究 之 外 ， 最 常见 的 是 纵向 〈longitudinal) 研究 ， 指 在 一 
个 时 间 段 内 重复 观察 一 个 群 组 。 


全 国家 庭 增长 调查 进行 过 7 次 ， 每 一 次 都 称 为 一 个 周期 〈cycle)。 我 们 将 使 用 第 6 次 的 数 
据 ， 其 时 间 段 为 2002 年 1 月 至 2003 年 3 月 。 


这 项 调查 的 目的 是 对 一 个 总 体 (population) 得 出 结论 。 全 国家 庭 增长 调查 的 目标 总 体 是 居 
住 在 美国 、 年 龄 在 15~44 岁 的 人 。 理 想 情况 下 ， 调 查 要 收集 这 个 总 体 中 每 个 成 员 的 数据 ， 
但 这 是 不 可 能 实现 的 。 实 际 上 ， 我 们 收集 了 这 个 总 体 的 一 个 子 集 的 数据 ， 这 个 子 集 称 为 样 
本 (sample) 。 参 与 调查 的 人 称 为 调查 参与 者 (respondent)。 


通常 来 说 ， 横 截面 研究 应 该 是 有 代表 性 (representative) 的 ， 也 就 是 说 目标 总 体 中 每 个 成 
员 参 与 调查 的 机 会 均等 。 这 种 理想 条 件 在 实践 中 很 难 实现 ， 但 是 进行 调查 的 人 员 会 竭尽 所 
能 满足 这 个 条 件 。 


全 国家 庭 增长 调查 不 具有 代表 性 ， 而 是 特意 进行 过 度 抽 样 (oversample)。 这 项 研究 的 设计 
者 招募 了 拉美 褒 美 国人 、 非 洲 褒 美国 人 和 青少年 3 个 群 组 的 参与 者 ， 每 个 群 组 的 招募 比例 
都 超过 其 在 美国 人 口中 所 占 的 比例 ， 以 确保 各 群 组 的 参与 者 数量 足够 多 ， 从 而 进行 有 效 的 
统计 推断 。 


当然 ， 过 度 抽样 也 有 缺点， 那 就 是 不 容易 从 调查 的 统计 数据 中 得 出 关于 总 体 的 结论 。 我 们 
稍 后 会 对 此 进行 讨论 。 
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在 使 用 这 种 调查 数据 时 ， 我 们 必须 熟悉 代码 本 (codebook)， 这 一 点 非常 重要 。 代 码 本 记录 
了 一 项 研究 的 设计 、 使 用 的 调查 问题 ， 以 及 调查 中 响应 变量 的 编码 。 你 可 以 从 美国 疾病 控 
制 和 预防 中 心 的 网 站 (http:/www.cdc.gov/nchs/nsfg/nsfg_cycle6.htm) 下 载 全 国家 庭 增长 调 
查 数据 的 代码 本 和 使 用 手册 。 


1.3 数据 导入 
本 书 所 用 的 代码 和 数据 都 可 以 通过 GitHub (https://github.com/AllenDowney/ThinkStats2) 
获取 。 前 言 中 介绍 了 如 何 下 载 和 使 用 这 些 代 码 。 























下 载 代码 后 ， 你 会 得 到 一 个 名 为 ThinkStats2/code 的 文件 夹 ， 其 中 包含 一 个 名 为 nsfg.py 
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的 文件 。 运 行 nsfg.py 会 读 取 数据 文件 ， 执 行 测试 ， 然 后 打印 出 一 条 消息 ， 例 如 “All test 
passed” 。 

让 我 们 看 看 这 个 文件 所 执行 的 工作 。 第 6 次 全 国家 庭 增长 调查 的 妊娠 数据 保存 在 名 为 
2002FemPreg.dat.gz 的 文件 中 ， 这 是 一 个 纯 文 本 (ASCI 码 ) 形式 的 gzip 压缩 文件 ， 有 国 
定 宽 度 的 列 。 这 个 文件 中 的 每 一 行 都 是 一 个 记录 (record)， 包 含 一 次 妊娠 的 数据 。 
2002FemPreg.dct 是 一 个 Stata 字 册 文件 ， 记 录 了 数据 文件 的 格式 。Stata 是 一 个 统计 软件 。 
Stata“ 字 典 ” 是 由 变量 名 、 变 量 类 型 及 标识 变量 位 置 的 索引 值 组 成 的 列表 。 


下 






































在 几 行 摘自 2002FemPreg.dct: 











infile dictionary { 
_Column(1) str12 caseid %12s "RESPONDENT ID NUMBER" 
_Column(13) byte pregordr %2f "PREGNANCY ORDER (NUMBER)" 
} 


这 个 字典 描述 了 两 个 变量 :caseid 是 一 个 长 度 为 12 的 字符 串 ， 代 表 调 查 参 与 者 的 ID; 
pregorder 是 一 个 单字 节 整 数 ， 说 明 这 条 记录 描述 的 是 这 位 调查 参与 者 的 第 儿 次 妊娠 。 

下 载 的 代码 包含 一 个 thinkstats2.py 文件 ， 这 是 一 个 Python 模块 ， 包 含 了 本 书 中 用 到 的 很 
多 类 和 函数 ， 其 中 有 读 取 Stats 字典 和 全 国家 庭 增 长 调查 数据 文件 的 函数 。 这 两 个 函数 在 
nsfg.py 中 的 用 法 如 下 : 





def ReadFempreg(dct file='2002FemPreg.dct', 
dat_file='2002FempPreg.dat.gz'): 
dct = thinkstats2.ReadStataDct(dct_file) 
df = dct.ReadFixedWidth(dat file, compression='gzip') 
CleanFempreg(df) 
return df 





ReadStataDct 的 参数 是 字典 文件 名 ， 返 回 值 dct 是 一 个 FixedWidthVariables 对 象 ， 其 中 包 
含 从 字典 文件 中 得 到 的 信息 。dct 对 象 提 供 ReadFixdWidth 方法 进行 数据 文件 的 读 取 。 


























1.4 DataFrame 


ReadFixedwidth 方法 返回 一 个 DataFrame 对 象 。DataFrame 是 pandas 提供 的 基础 数据 结构 。 
pandas 是 一 个 Python 数据 和 统计 包 ， 它 的 使 用 会 贯穿 本 书 。 在 DataFrame 中 ， 每 个 记录 为 
一 行 〈 在 我 们 的 例子 中 就 是 每 个 妊娠 数据 为 一 行 )， 每 个 变量 为 一 列 。 


除了 数据 ，DataFrame 还 包含 变量 名 和 变量 类 型 信息 ， 并 提供 访问 和 修改 数据 的 方法 。 








如 果 打 印 df 对 象 ， 你 会 看 到 其 中 行列 的 部 分 数据 和 DataFrame 的 大 小 : 13 593 行 / 记 录 ， 
244 列 /变量 。 





>>> import nsfg 
>>> df = nsfg.ReadFempreg() 
>>> df 


[13593 rows x 244 columns] 


df 的 coLumns 属性 将 列 名 返回 为 一 列 Unicode 字符 串 。 





>>> df.coLumns 
Index([u'caseid', ，uU'pregordr' ，U'howpreg_n' ，U'howpreg_p' ，... ]) 


df.coLumns 的 结果 是 一 个 Index 对 象 ，Index 也 是 一 个 pandas 数据 结构 。 我 们 稍 后 会 详细 
介绍 Index， 现 在 可 以 暂时 将 其 视 为 一 个 列表 。 




















>>> df.coLumns[1] 
"pregordr' 


要 访问 DataFrame 中 的 一 列 ， 你 可 以 将 列 名 作为 键 值 。 














>>> pregordr = df['pregordr'] 
>>> type(pregordr) 
<class 'pandas.core.series.Series'> 


其 结果 是 一 个 Series 对 象 ， 这 又 是 一 个 pandas 数据 结构 。Series 与 Python 列表 类 似 ， 还 能 
提供 一 些 附加 功能 。 打 印 一 个 Series 对 象 会 得 到 索引 和 对 应 的 数值 。 





>>> pregordr 
0 1 


1 2 
2 1 
3 2 


13590 3 
13591 4 
13592 5 
Name: pregordr, Length: 13593, dtype: int64 


这 个 示例 中 的 索引 是 从 0 到 13 592 的 整数 ， 但 通常 索引 可 以 使 用 任何 可 排序 的 数据 类 型 。 
这 个 示例 中 的 元 素 也 是 整数 ， 但 元 素 可 以 是 任何 类 型 的 。 





示例 中 的 最 后 一 行列 出 了 变量 名 、Series 长 度 和 数据 类 型 。int64 是 NumPy 提供 的 类 型 之 
一 。 如 果 在 32 位 机 器 上 运行 这 个 示例 ， 得 到 的 数据 类 型 可 能 是 int32。 








你 可 以 使 用 整数 的 index 和 slice 值 访 问 Series 中 的 元 素 。 











>>> pregordr[0] 
1 


>>> pregordr[2:5] 


2 1 
3 2 
4 3 


Name: pregordr, dtype: int64 
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index 操作 符 的 结果 是 int64，slice 的 结果 还 是 一 个 Series。 
你 也 可 以 使 用 点 标记 法 来 访问 DataFrame 中 的 列 。 
>>> pregordr = df.pregordr 


只 有 当 列 名 为 合法 的 Python 标识 符 时 〈 即 以 字母 开头 ， 不 包含 空格 等 )， 才 能 使 用 这 种 
写法 。 





1.5 变量 


我 们 已 经 使 用 了 全 国家 庭 增长 调查 数据 集中 的 两 个 变量 
据 集中 共有 244 个 变量 。 本 书 的 探索 性 分 析 用 到 如 下 变量 。 


。 caseid: 调查 参与 者 的 整数 ID。 

。 prglength: 妊娠 周 数 ， 是 一 个 整数 。 

。 outcome: 怀孕 结果 的 整数 代码 。1 代表 成 功 生产 。 

。 pregordr :妊娠 的 顺序 号 。 例 如 ,一 位 调查 参与 者 的 第 一 次 妊娠 为 1, 第 二 次 为 2, 以 此 类 推 。 

。 birthord: 成 功 生产 的 顺序 号 ， 一 位 调查 参与 者 的 第 一 个 孩子 代码 为 1， 以 此 类 推 。 对 
没有 成 功 生 产 的 其 他 妊娠 结果 ， 此 字段 为 空 。 

。 birthwgt_Lb 和 birthwgt_oz: 新 生 儿 体重 的 磅 部 分 数值 和 各 司 部 分 数值 。 

。 agepreg: 妊娠 结束 时 母亲 的 年 龄 。 

。 finalwgt: 调查 参与 者 的 统计 权重 。 这 是 一 个 浮 点 数 ， 表 示 这 位 调查 参与 者 在 全 美人 
中 代表 的 人 数 。 


如 果 你 仔细 阅读 了 代码 本 ， 就 会 发 现 这 些 变量 中 很 多 都 是 重 编码 (recode)， 也 就 是 说 这 些 
不 是 调查 收集 的 原始 数据 (raw data) ， 而 是 使 用 原始 数据 计算 得 到 的 。 


例如 ， 如 果 成 功 生 产 ，prgtngth 的 值 就 与 原始 变量 wksgest (妊娠 周 数 ) 相等 ， 否 则 ， 
prgtLngth 的 值 估算 为 mosgest * 4.33 (妊娠 月 数 乘 以 一 个 月 的 平均 周 数 ) 。 





caseid 和 pregordr， 还 看 到 数 























号 











重 编 码 通常 都 基于 一 定 的 逻辑 ， 这 种 逻辑 用 于 检查 数据 的 一 致 性 和 准确 性 。 一 般 情况 下 ， 
如 果 数 据 中 存在 重 编码 ， 我 们 就 直接 使 用 ， 除 非 有 特殊 的 原因 需要 自己 处 理 原始 数据 。 


1.6 ”数据 变换 


导入 调查 数据 时 ， 经 常 需要 检查 数据 中 是 否 存在 错误 ， 处 理 特殊 值 ， 将 数据 转换 为 不 同 的 
格式 并 进行 计算 。 这 些 操 作 都 称 为 数据 清洗 (data cleaning)。 


nsfg.py 包含 一 个 CleanFemPreg 函数 ， 用 于 清洗 计划 使 用 的 变量 。 


























def CleanFempreg(df): 
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df.agepreg /= 100.0 
na_vals = [97, 98, 99] 
df.birthwgt_lb.replace(na_vals, np.nan, inplace=True) 


df.birthwgt_oz.replace(na_vals, np.nan, inplace=True) 


df['totalwgt_1lb'] = df.birthwgt_ lb + df.birthwgt oz / 16.0 





agepreg 包含 母亲 在 妊娠 结束 时 的 年 龄 。 在 数据 文件 中 ，agepreg 是 以 百 分 之 一 年 为 单位 的 
整数 值 。 因 此 CleanFemPreg 的 第 一 行将 每 个 agepreg 除 以 100， 从 而 获得 以 年 为 单位 的 序 
点 数值 。 


birthwgt_Lb 和 birthwgt_oz 包含 成 功 生 产 时 的 新 生 儿 体重 ,分 别 是 磅 和 浮 司 的 部 分 。 这 两 
个 变量 还 使 用 几 个 特殊 的 代码 。 


























97 NOT ASCERTAINED 
98 REFUSED 
99 DON'T KNOW 





用 数字 编码 特殊 值 是 一 种 危险 的 做 法 ， 因 为 如 果 没 有 进行 正确 的 处 理 ， 这 些 数字 可 能 产生 
虚假 结果 ， 例 如 ，9%9 磅 重 的 新 生 儿 。replace 方法 可 以 将 这 些 值 替换 为 np.nan， 这 是 一 个 
特殊 的 浮 点 数值 ， 表 示 “ 不 是 数字 ”。replace 方法 使 用 inplace 标识 ， 说 明 直 接 修改 现 有 
的 Series 对 象 ， 而 不 是 创建 新 对 象 。 


IEEE 浮 点 数 表示 法 标准 中 规定 ， 在 任何 算术 运算 中 ， 如 果 有 参数 为 nan， 结 果 都 返回 nan。 














>>> import numpy as np 
>>> np.nan / 100.0 
nan 





因此 使 用 nan 进行 计算 会 得 到 正确 的 结果 ， 而 且 大 部 分 的 pandas 函数 都 能 恰当 地 处 理 nan。 
但 我 们 经 常 需要 处 理 数据 缺失 的 问题 。 


cleanFempreg 函数 的 最 后 一 行 生成 一 个 新 列 totatwgt_tb， 将 磅 和 卷 司 值 结合 在 一 起 ， 得 到 
一 个 以 磅 为 单位 的 值 。 


需要 注意 的 是 ， 向 DataFrame 添加 新 列 时 ， 必 须 使 用 如 下 字典 语法 : 





























# 正确 
df['totalwgt_lb'] = df.birthwgt_Lb + df.birthwgt oz / 16.0 


而 不 是 使 用 点 标记 


# 错误 ! 
df.totaLwgt_Lb = df.birthwgt_lb + df.birthwgt oz / 16.0 





使 用 点 标记 的 写法 会 给 DataFrame 对 象 添 加 一 个 新 属性 ， 而 不 是 创建 一 个 新 列 。 
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1.7 ”数据 验证 


当 数 据 从 一 个 软件 环境 导出 ， 再 导入 另 一 个 环境 时 ， 可 能 会 产生 错误 。 如 果 不 熟 悉 新 数据 
集 ， 可 能 会 对 数据 进行 不 正确 的 解释 ， 或 者 引入 其 他 的 误解 。 如 果 能 抽出 一 些 时 间 进 行 ; 

据 验 证 ， 就 可 以 节省 后 续 可 能 花费 的 时 间 ， 避 免 可 能 出 现 的 错误 。 

验证 数据 的 一 种 方法 是 计算 基本 的 统计 量 ， 并 与 已 发 布 的 结果 进行 比较 。 例 如 ， 全 国家 庭 
增长 调查 的 代码 本 为 每 个 变量 提供 了 概要 表 。outcome 变量 对 每 个 妊娠 结果 进行 了 编码 ， 
其 概要 表 如 下 : 










































































vaLue label Total 

1 LIVE BIRTH 9148 
2 INDUCED ABORTION 1862 
3 STILLBIRTH 120 
4 MISCARRIAGE 1921 


5 ECTOPIC PREGNANCY 190 
6 CURRENT PREGNANCY 352 


Series 类 提供 了 一 个 vatue_counts 方法 ， 可 用 于 计算 每 个 值 出 现 的 次 数 。 如 果 得 到 
DataFrame 中 的 outcome Series， 我 们 可 以 使 用 value_counts 方法 ， 将 结果 与 已 发 布 的 数据 
进行 比较 。 
>>> df.outcome.value counts().sort index() 

1 9148 
2 1862 
3 120 
4 1921 
5 190 
6 352 


value_counts 返回 的 结果 是 一 个 Series 对 象 。sort_index 方法 将 Series 对 象 按 索引 排序 ， 
使 结果 按 序 显 示 。 


我 们 将 得 到 的 结果 与 官方 发 布 的 表格 进行 对 比 ，outcome 变量 的 值 似 乎 没有 问题 。 类 似 地 ， 
已 发 布 的 关于 birthwgt_Lb 的 概要 表 如 下 : 





vaLue label Total 
。 INAPPLICABLE 4449 

0-5 UNDER 6 POUNDS 1125 

6 6 POUNDS 2223 

7 7 POUNDS 3049 

8 8 POUNDS 1889 
9-95 9 POUNDS OR MORE 799 


birthwgt_Lb 的 value_counts 结果 如 下 : 


>>> df.birthwgt_lb.value_counts(sort=False) 
0 8 
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1 40 
2 53 
3 98 
4 229 
5 697 
6 2223 
f 3049 
8 1889 
9 623 
10 132 
11 26 
12 10 
13 3 
14 3 
15 1 
51 1 


数值 6、7、8 的 出 现 次 数 是 正确 的 。 如 果 计 算出 0~5 和 9~95 的 次 数 ， 结 果 也 是 正确 的 。 
但 是 ， 如 果 再 看 仔细 些 ， 你 会 发 现 有 一 个 数值 肯定 是 错 的 一 一 一 个 51 磅 的 新 生 儿 ! 


























为 了 处 理 这 个 错误 ， 可 以 在 CleanFemPreg 中 加 入 一 行 代码 。 


df.birthwgt_Lb[df.birthwgt_Lb > 20] = np.nan 








这 行 代码 将 非法 值 替换 为 np.nan。 方 括号 中 的 表达 式 产生 一 个 bool 类 型 的 Series 对 象 ， 
值 为 True 表示 满足 该 条 件 。 当 一 个 布尔 Series 用 作 索 引 时 ， 它 只 选择 满足 该 条 件 的 元 素 。 


1.8 解释 数据 


要 想 有 效 使 用 数据 ， 就 必须 同时 在 两 个 层面 上 思考 问题 : 统计 学 层面 和 上 下 文 层面 。 















































例如 ， 让 我 们 看 一 看 几 位 调查 参与 者 的 outcome 序列 。 由 于 数据 文件 的 组 织 方式 ， 我 们 必 
须 进行 一 些 处 理 才能 得 到 每 位 调查 参与 者 的 妊娠 数据 。 以 下 函数 实现 了 我 们 需要 的 处 理 : 























def MakepPregMap(df) : 
d = defaultdict(list) 
for index, caseid in df.caseid.iteritems(): 
d[caseid].append(index) 
return d 


df 是 包含 妊娠 数据 的 DataFrame 对 象 。iteritems 方法 遍历 所 有 妊娠 记录 的 索引 ( 行 号 ) 
和 caseid。 


d 是 将 每 个 caseID 映射 到 一 列 索 引 的 字典 。 如 果 你 不 熟悉 defaultdict， 可 以 到 Python 的 
collections 模块 中 查看 其 定义 。 使 用 d， 我 们 可 以 查找 一 位 调查 参与 者 ， 获 得 其 妊娠 数据 
的 索引 。 

















下 面 的 示例 就 查找 了 一 位 调查 参与 者 ， 并 打印 出 其 妊娠 结果 列表 : 
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>>> caseid = 10229 

>>> indices = preg_map[caseid] 
>>> df.outcome[indices].values 
[4444441] 


indices 是 调查 参与 者 10229 的 妊娠 记录 索引 列表 。 


以 这 个 列表 为 索引 可 以 访问 df .outcome 中 指定 的 行 ， 获 得 一 个 Series。 上 面 的 示例 没有 打 
印 整个 Series 对 象 ， 而 是 选择 输出 values 属性 ， 这 个 属性 是 一 个 NumPy 数组 。 


输出 结果 中 的 代码 1 表示 成 功 分 娩 。 人 代码 4 表示 流产 ， 即 自发 终止 的 妊娠 ， 终 止 原因 通常 
未 知 。 


从 统计 学 上 看 ， 这 位 调查 参与 者 并 无 异常 。 流 产 并 不 少见 ， 其 他 一 些 调查 参与 者 的 流产 次 
数 相同 或 者 更 多 。 


但 是 考虑 到 上 下 文 ， 这 个 数据 说 明 一 位 妇女 怀孕 6 次 ,每 次 都 以 流产 告终 。 她 第 7 次 也 是 



































最 近 一 次 怀孕 成 功 产 下 了 孩子 。 如 果 我 们 抱 着 同情 心 看 待 这 些 数 据 ， 就 很 容易 被 数据 背后 








全 国家 庭 增长 调查 数据 集中 的 每 一 条 记录 都 代表 一 位 参与 者 ， 这 些 参与 者 诚实 地 回答 了 
很 多 非常 私密 而 且 难 以 回答 的 问题 。 我 们 可 以 使 用 这 些 数据 解答 与 家 庭 生活 、 生 育 和 健 
康 相关 的 统计 学 问题 。 同 时 ， 我 们 有 义务 思 及 这 些 数 据 所 代表 的 参与 者 ， 对 他 们 心 存 敬 
意 和 感谢 。 


1.9 练习 

。 练习 1.1 

你 下 载 的 代码 中 应 该 有 一 个 名 为 chap01ex.ipynb 的 文件 ， 这 是 一 个 IPython 记事 本 。 你 可 
以 用 如 下 命令 从 命令 行 启动 IPython 记事 本 : 























$ ipython notebook & 





如 果 系 统 安装 了 IPython， 会 启动 一 个 在 后 台 运 行 的 服务 器 ， 并 打开 一 个 浏览 器 查看 记事 
本 。 如 果 你 不 熟悉 IPython， 我 建议 你 从 IPython 网 站 (http://ipython.org/ipython-doc/stable/ 
notebook/notebook.html) 开始 学 习 。 


你 可 以 添加 一 个 命令 行 选项 ， 使 图 片 在 “行内 ”( 即 在 记事 本 中 ) 显示 ， 而 非 弹出 窗口 ; 




















$ ipython notebook --pylab=inline & 





打开 chap01ex.ipynb。 记 事 本 中 一 些 单元 已 经 填 好 了 代码 ， 可 以 直接 执行 。 其 他 单元 列 出 
了 你 应 该 尝试 的 练习 。 


本 练习 的 参考 答案 在 chap01soln.ipynb 中 。 
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。 练习 1.2 
创建 一 个 名 为 chp0lex.py 的 文件 ， 编 写 代码 ， 读 取 参 与 者 文件 2001FemResp.dat.gz。 你 可 
以 复制 nsfg.py 文件 并 对 其 进行 修改 。 








变量 pregnum 是 一 个 重 编码 ， 用 于 说 明 每 位 调查 参与 者 有 过 多 少 次 妊娠 经 历 。 打 印 这 个 变 
量 中 不 同 值 的 出 现 次 数 ， 将 结果 与 全 国家 庭 增长 调查 代码 本 中 发 布 的 结果 进行 比较 。 


你 也 可 以 将 每 位 调查 参与 者 的 pregnum 值 与 妊娠 文件 中 的 记录 数 进 行 比较 ， 对 调查 参与 者 
文件 和 妊娠 文件 进行 交叉 验证 。 





















































你 可 以 使 用 nsfg.MakePregMap 生成 一 个 字典 ， 将 每 个 caseid 映射 到 妊娠 DataFrame 的 索引 
列表 。 


本 练习 的 参考 答案 在 chp01soln.py 中 。 





。 练习 1.3 
学 习 统 计 学 的 最 好 方法 是 使 用 一 个 你 感 兴趣 的 项 目 。 你 想 研 究 “ 第 一 胎 是 否 都 会 晚 出 生 ” 
这 样 的 问题 吗 ? 








请 思考 一 些 你 个 人 感 兴趣 的 问题 ， 可 以 是 传统 观点 、 和 争议 话题 或 影响 政局 的 问题 ， 看 是 否 
可 以 构想 出 一 个 能 以 统计 调查 进行 验证 的 问题 。 


寻找 能 帮助 你 回答 这 个 问题 的 数据 。 公 共 研 究 的 数据 经 常 可 以 免费 获取 ， 因 此 政府 网 站 是 
很 好 的 数据 来 源 ， 如 http:/www.data.gov/ 和 http://www.science.gov/。 如 果 想 获得 英国 的 数 
据 ， 可 以 访问 http://data.gov.uk/。 














我 个 人 最 喜爱 的 两 个 数据 集 是 General Social Survey (http://www3.norc.org/gsstwebsite/) 和 


European Social Survey (http:/www.europeansocialsurvey.org)。 


如 果 有 人 看 似 已 经 解答 了 你 的 问题 ， 那 么 仔细 检查 该 回答 是 否 合理 。 数 据 和 分 析 中 可 能 
在 的 缺陷 都 会 使 结论 不 可 靠 。 如 果 发 现 别 人 的 解答 存在 问题 ， 你 可 以 对 同样 的 数据 进行 不 
同 的 分 析 ， 或 者 寻找 更 好 的 数据 来 产 。 











如 果 有 一 篇 论文 解答 了 你 的 问题 ， 那 么 你 应 该 能 够 获得 论文 使 用 的 原始 数据 。 很 多 论文 作 
者 会 把 数据 放 在 网 上 供 大 家 使 用 ， 但 如 果 涉 及 敏感 信息 ， 你 可 能 需要 向 作者 写 信 索 要 ， 提 
供 你 计划 如 何 使 用 这 些 数据 的 信息 ， 或 者 同意 某 些 使 用 条 款 。 坚 持 就 是 胜利 ! 


1.10 术语 


。 轶 事 证 据 (anecdotal evidence) 
随意 收集 ， 而 非 通过 精心 设计 的 研究 获得 的 证 据 ， 通 常 是 个 人 证 据 。 
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总 体 (population) 
在 研究 中 ， 我 们 感 兴趣 的 群 组 。“ 总 体 ” 经 常 指 一 组 人 ， 但 这 个 词 也 可 以 用 于 其 他 对 象 。 





横 截 面 研 究 (cross-sectional study) 
收集 一 个 总 体 在 某 个 特定 时 间 点 的 数据 的 研究 。 


周期 (cycle) 
在 重复 进行 的 横 截面 研究 中 ， 每 次 研究 称 为 一 个 周期 。 














纵向 研究 (longtitudinal study) 
在 一 段 时 间 内 跟踪 一 个 总 体 的 研究 ， 从 同一 个 群体 重复 收集 数据 。 


记录 (record) 
在 数据 集中 ， 关 于 单个 人 或 其 他 对 象 的 信息 集合 。 








调查 参与 者 (respondent) 
参与 调查 的 人 。 


样本 (sample) 
总 体 中 用 于 数据 收集 的 一 个 子 集 。 


有 代表 性 (representative) 
如 果 总 体 中 的 每 个 成 员 被 选 入 样本 的 机 会 都 均等 ， 那 么 这 个 样本 就 是 有 代表 性 的 。 





过 度 抽 样 (oversampling) 
一 种 通过 增加 一 个 子 总 体 的 样本 数 来 避免 因 样本 规模 过 小 产生 错误 的 技术 。 





原始 数据 (raw data) 
没有 经 过 或 只 经 过 少许 检查 、 计 算 或 解释 ， 直 接收 集 和 记录 的 值 。 


重 编码 (recode) 
通过 计算 和 应 用 于 原始 数据 的 其 他 逻辑 生成 的 值 。 





数据 清洗 (data cleaning) 
数据 处 理 过 程 ， 包 括 数据 验证 、 错 误 检 查 ， 以 及 数据 类 型 和 表示 的 转换 等 。 


























描述 变量 的 最 佳 方 法 之 一 是 列 出 该 变量 在 数据 集中 的 值 ， 以 及 每 个 值 出 现 的 次 数 。 这 种 描 
述 称 为 该 变量 的 分 布 (distribution ) 。 














分 布 最 常用 的 呈现 方法 是 直方 图 (histogram)， 即 展示 每 个 值 的 频数 (frequency) 的 图 形 。 
在 这 里 ,“ 频 数 ” 指 一 个 值 出 现 的 次 数 。 


使 用 Python 计算 频数 的 一 种 有 效 方法 是 使 用 字典 。 假 设 有 一 个 值 序列 t。 








hist = {} 
for x in t: 
hist[x] = hist.get(x, 0) + 1 
执行 这 段 代码 ， 可 以 得 到 一 个 将 值 映射 到 频数 的 字典 。 此 外 ， 也 可 以 使 用 cottections 模 
块 中 定义 的 Counter 类 。 


from collections import Counter 
counter = Counter(t) 











结果 是 一 个 Counter 对 象 ， 是 字典 类 的 子 类 。 


还 有 一 个 方法 是 使 用 前 一 章 介 绍 的 pandas 方法 vaLue_counts。 但 是 我 为 本 书 创建 了 一 个 类 
Hist， 用 来 表示 直方 图 ， 并 提供 操作 方法 。 























2.1 表示 直方 图 


Hist 的 构造 函数 参数 可 以 是 序列 、 字 典 、pandas 的 Series 对 象 ， 或 者 另 一 个 Hist 对 象 。 你 
可 以 使 用 如 下 代码 初始 化 一 个 Hist 对 象 ; 


>>> import thinkstats2 

>>> hist = thinkstats2.Hist([1, 2, 2, 3, 5]) 
>>> hist 

Hist({1: 1, 2: 2, 3: 1, 5: 1}) 





Hist 对 象 提供 Freq 方法 ， 其 参数 为 一 个 值 ， 返 回 结 果 是 这 个 值 的 频数 。 


>>> hist.Freq(2) 
2 


方 括号 操作 符 也 是 一 样 。 


>>> hist[2] 
2 


如 果 传 入 的 参数 值 在 Hist 中 不 存在 ， 频 数 就 是 0。 


>>> hist.Freq(4) 
0 





Values 方法 返回 Hist 对 象 中 值 的 未 排序 列表 。 


>>> hist.Values() 
[1, 5, 3, 2] 





如 果 需 要 按 序 遍 历 Hist 中 的 值 ， 可 以 使 用 内 建 函数 sorted。 











for val in sorted(hist.Values()): 
print(val, hist.Freq(val)) 





也 可 以 使 用 Items 遍历 值 -频数 对 : 











for val, freq in hist.Items(): 
print(val, freq) 


2.2 绘制 直方 图 

我 为 本 书 编写 了 一 个 thinkplot.py 模块 ， 可 以 提供 各 种 函数 用 于 绘制 Hist 及 文件 
thinkstats2.py 中 定义 的 其 他 对 象 。 这 个 模块 基于 matpLotLib 包 中 的 pyplot。 前 言 中 介绍 了 
如 何 安装 matpLottLib 包 。 



































要 使 用 thinkplot 绘制 hist 对 象 ， 可 以 尝试 如 下 代码 : 
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>>> import thinkplot 
>>> thinkplot.Hist(hist) 
>>> thinkplot.Show(xlabel='value', ylabel='frequency') 


thinkplot 的 文档 位 于 http://greenteapress.com/thinkstats2/thinkplot.html。 


2.3 全国 家庭 增长 调查 中 的 变量 


让 我 们 回 到 全 国家 庭 增长 调查 的 数据 。 本 章 的 代码 在 first.py 中 。 前 言 中 介绍 了 如 何 下 载 和 
使 用 本 书 代码 。 


刚 开 始 使 用 一 个 新 数据 集 时 ， 我 建议 你 逐个 探索 计划 用 到 的 变量 ， 使 用 直方 图 就 是 一 个 很 
好 的 方法 。 


在 1.6 节 中 ， 我 们 将 agepreg 变量 的 单位 从 百 分 之 一 年 转换 为 年 ， 并 将 btrthwgt_Lb 和 
birthwgt_oz 结合 生成 一 个 数值 totatwgt_Lb。 在 这 一 节 中 ， 我 将 使 用 这 些 变量 展示 直方 图 
的 一 些 特 点 。 


首先 ， 读 入 数据 ， 选 取 成 功 生 产 的 记录 。 









































preg = nsfg.ReadFemPreg() 
Live = preg[preg.outcome == 1] 


方 括号 中 的 表达 式 是 一 个 布尔 型 Series， 从 DataFrame 中 选取 满足 条 件 的 行 ， 返 回 一 个 新 
的 DataFrame。 接 下 来 ， 要 为 成 功 生 产 记 录 的 birthwgt_1lb 生成 并 绘制 直方 图 。 











hist = thinkstats2.Hist(live.birthwgt_lb, label='birthwgt_1b') 
thinkplot.Hist(hist) 
thinkplot.Show(xlabel='pounds', ylabel='frequency') 


如 果 Hist 方法 的 参数 是 一 个 pandas Series 对 象 ， 对 象 中 的 nan 值 都 将 去 除 。label 是 图 例 
字符 串 。 


图 2-1 展示 了 前 一 段 代 码 的 结果 。 结 果 中 出 现 最 多 的 值 为 7 磅 ， 这 个 值 称 为 众 数 (mode)。 
这 个 分 布 大 致 为 钟 形 。 钟 形 是 正 态 (normal) 分 布 ， 即 高 斯 (Gaussian) 分 布 的 形状 。 但 
是 ， 结 果 的 分 布 是 不 对 称 的 ， 相 较 布 方 ， 尾 端 (tail) 向 左 延 伸 更 长 ， 这 一 点 与 正 态 分 布 
不 符 。 









































分 布 | 15 





my birthwgt lb|j 

















图 2-1: 新 生 儿 体重 的 磅 值 直方 图 


图 2-2 展示 了 变量 birthwgt_oz 的 直方 图 ， 该 变量 表示 新 生 儿 体重 的 部 司 值 。 理 论 上 ,我 
们 预期 这 个 分 布 是 均匀 (uniform) 分 布 ， 即 所 有 值 都 具有 相同 的 频数 。 实 际 上 ，0 的 频数 
最 高 ，1 和 15 频数 最 低 。 这 可 能 是 因为 调查 参与 者 将 接近 整数 的 体重 值 进行 了 四 舍 五 入 。 














1200 























图 2-2: 新 生 儿 体重 的 中 司 值 直 方 图 
图 2-3 展示 了 变量 agepreg 的 直方 图 ， 该 变量 表示 产妇 在 妊娠 结束 时 的 年 龄 。 这 一 分 布 的 








众 数 为 21 岁 ， 分布 形状 大 致 为 钟 形 ， 但 是 尾 端 向 右 延伸 较 长 。 大 部 分 产妇 年 龄 为 20 多 
岁 ， 较 少 为 30 多 岁 。 
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图 2-3: 产妇 在 妊娠 结束 时 的 年 龄 直方 图 


图 2-4 展示 了 变量 pregtngth 的 直方 图 ， 该 变量 表示 妊娠 周 数 。 图 中 最 常 出 现 的 值 为 39 
周 。 这 一 分 布 的 左 尾 比 右 尾 更 长 。 妊 娠 期 少 于 39 周 的 并 不 少见 ， 但 是 很 少 有 超过 43 周 
的 。 如 果 妊 娠 期 超过 43 周 ， 医 生 通 常会 进行 干预 。 
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图 2-4: 妊娠 周 数 直方 图 





2.4 离 群 值 
通过 观察 直方 图 ， 我 们 很 容易 发 现 最 常 出 现 的 值 ， 并 能 判断 分 布 的 形状 ， 但 不 一 定 能 看 到 
很 少 出 现 的 值 。 


在 进一步 探索 数据 之 前 ， 我 们 最 好 检查 一 下 离 群 值 (outlier) 。 离 群 值 是 极端 值 ， 可 能 是 测 
量 和 记录 中 出 现 的 错误 ， 也 可 能 是 偶然 事件 的 准确 汇报 。 

Hist 对 象 提供 Largest 和 SmatLtest 方法 ， 这 两 个 方法 的 参数 都 是 整数 n， 分 别 返 回 直方 
中 mm 个 最 大 和 最 小 的 值 。 




















| 











for weeks, freq in hist.Smallest(10): 
print(weeks, freq) 


在 成 功 生 产 记 录 的 妊娠 期 列表 中 ， 最 小 的 10 个 值 为 [6，4，9，13，17，18，19，20，21， 
22]。10 周 以 下 的 值 肯 定 是 错误 的 ， 很 可 能 是 结果 数据 没有 进行 正确 编码 ， 大 于 30 周 的 数 
据 很 可 能 是 正确 的 ，10~30 周 的 数据 就 很 难 判断 了 ， 有 些 可 能 是 错误 的 ， 但 有 些 可 能 的 确 
是 早产 儿 。 


另 一 端 ， 最 大 的 10 个 值 为 : 





weeks count 


43 148 
44 46 
45 10 
46 1 
47 1 
48 7 
50 2 








当 妊 娠 期 超过 42 周 时 ， 大 部 分 医生 会 建议 催产 ， 因 此 大 于 42 周 的 数据 是 令 人 惊讶 的 。 从 
医学 角度 看 ，50 周 几 乎 是 不 可 能 的 。 

处 理 离 群 值 的 最 佳 方法 依赖 于 “领域 知识 ， 即 有 关 数 据 来 源 和 意义 的 信息 ， 另 外 还 取决 
于 你 打算 对 数据 进行 何 种 分 析 。 

在 这 个 示例 中 ， 我 们 要 解答 的 问题 是 第 一 胎 是 否 会 早产 〈 或 超过 预产期 )。 当 人 们 提出 这 
个 问题 时 ， 他 们 感 兴趣 的 通常 是 足 月 妊娠 ， 因 此 在 这 次 分 析 中 我 将 关注 超过 27 周 的 妊娠 
记录 。 


2.5 第 一 胎 
现在 ， 我 们 可 以 比较 第 一 胎 和 其 他 胎 的 妊娠 周 数 分 布 了 。 我 将 成 功 生产 的 DataFrame 按照 
birthord 值 进行 划分 ， 并 计算 其 直方 图 。 
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firsts = live[live.birthord == 1] 


others = live[live.birthord != 1] 
first hist = thinkstats2.Hist(firsts.prglngth) 
other_hist = thinkstats2.Hist(others.prglngth) 


然后 在 同一 坐标 轴 上 绘制 这 两 个 直方 图 。 


width = 0.45 

thinkplot.Preplot(2) 

thinkplot.Hist(first hist, align='right', width=width) 
thinkplot.Hist(other_hist, align='left', width=width) 
thinkplot.Show(xlabel='weeks', ylabel='frequency') 


thinkplot.PrePlot 的 参数 是 计划 绘制 的 直方 图 数量 ，thinkplot 使 用 这 一 信息 选择 适当 的 
绘制 颜色 。 








thinkplot.Hist 通常 使 用 align='center'， 从 而 使 每 个 柱 形 以 其 值 为 中 心 进行 显示 。 在 这 
个 图 形 中 ， 我 对 两 个 直方 图 分 别 设 置 了 align='right' 和 'align='left' ， 使 其 柱 形 分 别 在 
值 的 两 边 显示 。 























通过 设置 width=0.45 让 两 个 直方 图 的 柱 形 总 宽度 为 0.9， 每 对 柱 形 之 间 留 有 一 些 空 孙 








最 后 ， 调 整 轴 设置 ， 只 显示 27~46 周 的 数据 。 图 2-5 展示 了 绘制 结果 。 
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图 2-5: 妊娠 周 数 直方 


直方 图 清晰 展示 了 最 常 出 现 的 变量 值 ， 因 此 非常 有 用 。 但 是 ， 直 方 图 并 不 是 比较 两 个 变量 
分 布 的 最 佳 选择 。 在 这 个 示例 中 ,“ 第 一 胎 ” 的 数量 比 “ 其 他 胎 ” 少 ， 因 此 图 中 展示 的 一 
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些 明显 差异 是 由 样本 规模 导致 的 。 在 下 一 章 中 ， 我 们 将 使 用 概率 质量 函数 解决 这 个 问题 。 


2.6 ”分布 概述 


直方 图 是 一 个 样本 分 布 的 完整 描述 ， 也 就 是 说 ， 有 了 直方 图 ， 我 们 可 以 重 构 样本 中 的 值 
(但 无 法 重 构 其 顺序 )。 

如 果 一 个 分 布 的 细 市 很 重要 ， 我 们 可 能 需要 展示 其 直方 图 。 但 是 ， 我 们 经 常 只 需 使 用 几 个 
描述 性 的 统计 量 ， 对 变量 分 布 进行 一 个 概述 。 















































我 们 可 能 需要 描述 的 变量 分 布 特征 有 如 下 这 些 。 


。 集中 趋 芝 
变量 值 是 否 聚集 在 某 个 值 的 附近 ? 











。 众 数 
是 否 有 多 个 聚集 点 ? 
。 展 布 


变量 的 变化 性 如 何 ? 
































离 
是 否 有 远离 众 数 的 极端 值 ? 


汇总 统计 量 (summary statistic) 就 是 为 回答 以 上 这 些 问 题 而 设计 的 。 目 前 最 常用 的 汇总 统 
计量 是 均值 (mean) ， 用 于 描述 分 布 的 集中 趋势 (central tendency) 。 











如 果 有 一 个 样本 ， 其 中 包含 n 个 值 x， 均 值 x* 就 是 所 有 值 的 总 和 除 以 值 的 个 数 ， 即 : 


x = Dx 


“均值 ”和 “平均 数 ” 这 两 个 词 有 时 可 以 互 换 使 用 ,但 有 一 个 区 别 : 

。 一 个 样本 的 “均值 ”是 使 用 上 面 的 公式 计算 得 到 的 汇总 统计 量 ; 

。 “平均 数 ” 是 描述 集中 趋势 的 汇总 统计 量 之 一 。 

有 时， 均值 可 以 很 好 地 描述 一 组 值 。 例 如 : 苹果 的 大 小 都 差不多 〈 至 少 超市 卖 的 苹果 如 此 )。 
因此 ， 如 果 我 严 了 6 个 人 苹果， 总 重量 为 3 磅 ， 那 么 每 个 苹果 约 重 半 磅 就 是 合理 的 说 法 。 
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但 是 南瓜 个 体 差 异 比较 大 。 假 设 我 在 院子 里 种 了 好 几 种 南瓜 ， 某 天 收获 了 3 个 做 装饰 的 南 
瓜 ， 每 个 1 人 磅 重 ，2 个 做 派 的 南瓜 ， 每 个 3 磅 重 ;， 还 有 1 个 Atlantic Giant 南瓜 ， 重 达 591 
磅 。 我 收获 的 南瓜 样本 均值 为 100 磅 。 但 是 如 果 我 说 “我 院子 里 普通 大 小 的 南瓜 重 100 
磅 ”， 那 就 是 在 误导 你 。 这 个 例子 中 不 存在 具有 代表 性 的 南瓜 ， 因 此 平均 值 没 有 意义 。 











2.7 方差 


如 果 我 们 不 能 用 一 个 值 来 概括 南瓜 的 重量 ， 那 么 使 用 两 个 值 会 好 一 些 : 均值 和 方差 


(variance ) 。 














方差 是 用 于 描述 一 个 分 布 的 变化 性 或 者 展 布 (spread) 的 汇总 统计 量 。 计 算 方差 的 公式 为 : 





2_1 ee 
3 -nt x) 


公式 中 的 xx 称 为 “ 离 差 "， 因 此 方差 就 是 离 差 平 方 的 均值 。 方 差 的 平方 根 8 是 标准 差 


(standard deviation ) 。 


如 果 你 以 前 学 过 相关 知识 ， 可 能 见 过 以 n-1 而 不 是 以 为 分 母 的 方差 公式 。 这 种 统计 量 用 
于 使 用 一 个 样本 对 总 体 方差 进行 估计 。 我 们 将 在 第 8 章 对 此 进行 讨论 。 


Pandas 数据 结构 提供 计算 均值 、 方 差 和 标准 差 的 方法 。 














mean = live.prglngth.mean() 
var = live.prglngth.var() 
std = live.prglngth.std() 


对 于 所 有 成 功 生产 的 妊娠 数据 ， 妊 娠 期 的 均值 为 38.6 周 ， 标 准 差 为 2.7 周 ， 也 就 是 说 ， 我 
们 认为 2~3 周 的 偏差 值 是 正常 的 。 


妊娠 期 的 方差 为 7.3， 这 个 值 很 难 解释 ， 尤 其 是 方差 的 单位 是 周 的 平方 ， 或 “平方 周 ”。 方 
差 在 某 些 计算 中 有 用 ， 却 不 是 一 个 很 好 的 汇总 统计 量 。 


2.8 效应 量 


效应 量 (effect size) 是 用 于 描述 效应 大 小 的 汇总 统计 量 。 例 如 ， 要 描述 两 个 群 组 之 间 的 差 
异 ， 一 个 显而易见 的 选择 是 使 用 均值 的 差 值 。 


第 一 胎 妊 娠 期 的 均值 是 38.601， 非 第 一 胎 的 妊娠 期 均值 是 38.523。 二 者 差 值 为 0.078 周 
( 即 13 小 时 ) ， 将 这 个 值 除 以 平均 的 妊娠 周 数 ， 得 出 差异 约 为 0.2%。 


如 有 果 我 们 假设 这 个 估算 是 准确 的 ， 那 么 这 个 差 值 不 具有 实际 意义 。 实 际 上 ， 如 果 没 有 对 大 
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量 妊娠 数据 进行 研究 ， 根 本 不 可 能 有 人 会 注意 到 这 一 差异 。 


另 一 个 描述 效应 量 的 方法 是 将 群 组 之 间 的 差 值 与 群 组 内 的 变化 性 进行 比较 。Cohen's 4 就 是 
这 样 一 个 统计 量 ， 其 定义 如 下 : 























其 中 x, 和 Xx, 是 各 群 组 的 均值 ，s 是 “合并 标准 差 ”(pooled standard deviation)。 计 算 
Cohen's dg 的 Python 代码 如 下 : 





def CohenEffectSize(group1, group2): 
diff = group1.mean() - group2.mean() 


varl = group1.var() 
var2 = group2.var() 
n1，n2 = Len(group1)，Len(group2) 


pooled var = (nNn1 * varl + n2 * var2) / (nl1 + n2) 
d = diff / math.sqrt(pooled_var) 
return d 








在 我 们 的 示例 中 ， 两 组 样本 的 均值 差 为 0.029 个 标准 差 ， 这 个 值 很 小 。 对 比 一 下 ， 男 性 和 
女性 的 身高 差 约 为 1.7 个 标准 差 (参见 https://en.wikipedia.org/wiki/Effect_size) 。 


2.9 报告 结果 


对 于 第 一 胎 和 其 他 胎 的 妊娠 期 长 度 差异 〈 如 果 存 在 差异 的 话 ) ， 我 们 已 经 讨论 了 好 几 种 方 
法 来 进行 描述 。 我 们 应 该 如 何 报告 这 些 结果 呢 ? 


答案 取决 于 提出 问题 的 人 。 科 学 家 可 能 对 任何 (真实 的 ) 效应 都 感 兴 趣 ， 无 论 该 效应 多 么 
微小 ， 医生 可 能 只 关心 那些 临床 显著 (clinically significant) 的 效应 ， 即 影响 治疗 诊断 的 效 
应 ; 孕妇 则 可 能 对 与 自己 有 关 的 结果 感 兴 趣 ， 例 如 早 于 或 晚 于 预产期 生产 的 可 能 4 

你 的 目标 也 会 影响 结果 的 报告 。 如 果 你 试图 证 明 一 个 效应 的 重要 性 ， 那 么 可 能 会 选择 使 用 
强调 差异 的 汇总 统计 量 ， 如 果 你 要 安慰 一 位 病人 ， 那 么 可 能 会 选择 使 该 差异 更 具有 实际 意 
义 的 统计 量 。 


















































当然 ， 你 的 选择 还 应 该 遵守 职业 道德 。 使 用 数据 进行 说 明 是 合理 的 ， 你 应 当 设计 统计 图 形 
和 报告 清晰 表达 自己 的 观点 。 但 是 ， 你 也 应 该 尽量 诚实 地 报告 结果 ， 并 承认 结论 的 不 确定 
性 和 研究 的 局 限 性 。 














2.10 练习 


。 练习 2.1 
基于 本 章 结果 ， 总 结 一 下 关于 第 一 胎 是 否 晚 于 预产期 出 生 这 一 问题 ， 你 都 学 到 了 什么 。 


如 果 要 在 晚间 新 闻 上 发 布 一 条 消息 ， 你 会 使 用 哪些 汇总 统计 量 ? 如 果 要 安慰 一 位 焦虑 的 病 
人 ， 你 又 会 选择 哪些 汇总 统计 量 ? 








， 假 设 你 是 The Straight Dope (http://straightdope.com) 的 作者 Cecil Adams， 任 务 是 回 
答 “ 第 一 胎 是 否 会 晚 于 预产期 出 生 "。 请 使 用 本 章 结果 撰写 一 段 文字 ， 清 晰 、 准 确 且 诚 实 
地 回答 这 个 问题 。 




















。 练习 2.2 
在 你 下 载 的 代码 库 中 ， 有 一 个 名 为 chap02ex.ipynb 的 文件 ， 请 打开 这 个 文件 。 一 些 单元 已 
经 填 好 代码 ， 请 执行 。 其 他 单元 给 出 了 练习 指令 ， 请 按照 指令 练习 并 填写 答案 。 


此 练习 的 参考 答案 在 chap02soln.ipynb 中 。 











对 于 接 下 来 的 练习 ， 请 创建 文件 chap02ex.py。 你 可 以 在 chap02soln.py 中 找到 参考 答案 。 


。 练习 2.3 
一 个 分 布 的 众 数 是 其 中 最 常 出 现 的 值 (参见 http://wikipedia.org/wiki/Mode_(statistics))。 请 
编写 一 个 函数 Mode， 使 用 Hist 参数 ， 返 回 最 常 出 现 的 值 。 


要 进一步 挑战 自己 ， 请 编写 一 个 函数 ALU4odes， 返 回 一 个 值 - 频数 对 列表 ， 列 表 按 频数 降 
序 排列 。 








。 练习 2.4 
请 使 用 变量 totalwgt_tb,， 研究 第 一 胎 是 否 比 其 他 新 生 儿 体重 轻 / 重 。 请 计算 Cohen’s dq， 
对 和 群 组 之 间 的 差异 进行 量化 。 将 得 到 的 结果 与 妊娠 期 差异 的 结果 对 比 ， 有 何不 同 ? 


2.11 术语 


。 分 布 (distribution) 


样本 中 的 值 以 及 每 个 值 出 现 的 频数 。 















































。 直方 图 (histogram ) 
从 值 到 频数 的 映射 ， 或 者 展示 这 一 映射 的 图 形 。 


。 频数 (frequency) 
一 个 值 在 样本 中 出 现 的 次 数 。 
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众 数 (mode) 
一 个 样本 中 最 常 出 现 的 值 ， 或 者 最 常 出 现 的 值 之 一 。 





正 态 分 布 (normal distribution) 


钟 形 的 理想 化 分 布 ， 也 称 为 高 斯 分 布 。 




















均匀 分 布 (uniform distribution ) 


所 有 值 具有 相同 频数 的 分 布 。 


尾部 (tail) 
一 个 分 布 中 最 高 端 和 最 低 端 的 部 分 。 


集中 趋势 〈central tendency) 
样本 或 总 体 的 一 个 特征 。 直 观 上 ， 这 一 特征 是 一 个 平均 值 或 典型 值 。 





离 群 值 (outlier) 
远离 集中 趋势 的 值 。 


展 布 (spread) 
对 值 在 分 布 中 扩展 规模 的 度量 。 





Ta 











汇总 统计 量 (summary statistic ) 


对 分 布 的 某 些 方面 (如 集中 趋势 或 展 布 ) 进行 量化 的 统计 量 。 





方差 (variance) 


一 种 汇总 统计 量 ， 常 用 于 量化 展 布 。 








标准 差 (standard deviation) 
方差 的 平方 根 ， 也 用 于 量化 展 布 。 


效应 量 (effect size) 
一 种 汇总 统计 量 ， 用 于 量化 一 个 效应 的 大 小 ， 如 群 组 之 间 的 差异 。 





临床 显著 (clinically significant) 
在 实践 中 有 意义 的 结果 ， 如 群 组 之 间 的 差异 。 
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这 一 章 的 代码 在 probability.py 中 。 


3.1 概率 质量 





概率 质量 函数 


前 言 介 绍 了 如 何 下 载 和 使 用 本 书 代码 。 


函数 


除了 直方 图 ， 另 一 种 可 以 表示 分 布 的 方法 是 概率 质量 函数 (probability mass function,，PMEF)。 
概率 。 概 率 (probability) 是 频数 的 分 数 表示 ， 样 本 量 为 n。 





概率 质量 函数 将 每 个 值 映射 到 其 
要 从 频数 计算 出 概率 ， 我 们 将 


给 定 一 个 Hist 对 象 ， 我 们 可 以 全 





{} 














hist.Total() 


| 





建 


for x, freq in hist.Items(): 
d[x] = freq / n 


频数 除 以 mn， 这 一 过 程 称 为 正 态 化 (normalization ) 。 


一 个 字典 ， 将 每 个 值 映射 到 对 应 的 概率 。 


也 可 以 使 用 thinkstats2 提供 的 Pmf 类 。 和 Hist 类 一 样 ，Pmf 的 构造 函数 参数 可 以 是 列 


表 、pandas Series、 


Pmf 的 例子 。 


字典 、Hist 对 象 或 另 一 个 Pmf 对 象 。 下 面 是 一 


>>> import thinkstats2 
>>> pmf = thinkstats2.Pmf([1, 2, 2, 3, 5]) 


>>> pmf 





个 使 用 简单 列表 创建 

















Pmf({1: 0.2, 2: 0.4, 3: 0.2, 5: 0.2}) 


Pmf 将 各 个 值 的 频数 进行 了 正 态 化 ， 








丸 此 概率 总 和 为 1。 
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Pmf 和 Hist 对 象 在 很 多 方面 都 很 相似 。 实 际 上 ， 这 两 个 类 的 很 多 方法 都 继承 自 同一 个 父 
类 。 例 如 ，Pmf 和 Hist 都 有 Values 和 Items 方法 ， 用 法 也 相同 。 二 者 最 大 的 区 别 是 ，Hist 
将 值 映 射 到 整 型 的 计数 值 ， 而 Pmf 将 值 映 射 到 浮 点 型 的 概率 值 。 


使 用 Prob 方法 可 以 查找 一 个 值 对 应 的 概率 值 。 




















Eee 











>>> pmf.Prob(2) 
0.4 


使 用 括号 写法 也 可 以 实现 同样 的 功能 。 





>>> pmf[2] 
0.4 





你 可 以 修改 一 个 现 有 的 Pmf 对 象 ， 增 加 一 个 值 的 概率 。 











>>> pmf.Incr(2, 0.2) 
>>> pmf.Prob(2) 
0.6 





或 者 将 其 概率 值 乘 以 一 个 倍数 。 


>>> pmf.Mult(2, 0.5) 
>>> pmf.Prob(2) 
0.3 
































如 果 你 修改 了 一 个 Pmf 对 象 ， 其 结果 可 能 不 再 是 正 态 化 的 ， 即 所 有 值 的 概率 和 不 再 为 1。 
要 检查 Pmf 对 象 的 结果 是 否 正 态 化 ， 你 可 以 调用 Total 方法 ， 返 回 所 有 值 的 概率 和 。 


























>>> pmf.Total() 
0.9 


要 重新 进行 正 态 化 ， 可 以 调用 Normalize 方法 。 
>>> pmf.Normalize() 


>>> pmf.Total() 
1.0 


Pmf 对 象 提供 了 Copy 方法 ， 可 用 于 在 保持 原 对 象 不 变 的 前 提 下 创建 和 修改 一 个 副本 。 





这 一 节 中 使 用 的 记号 看 似 有 些 混 乱 ， 其 实 也 有 规律 可 循 : 首 字 母 大 写 的 Pmf 是 类 名 ， 小 写 
的 pmf 是 类 的 一 个 实例 ， 全 大 写 的 PMF 是 指 概率 质量 函数 的 数学 概念 。 











3.2 绘制 PMF 
thinkplot 提供 两 种 绘制 Pmf 的 方法 。 





。 使 用 thinkplot.Hist 将 Pmf 绘 制 为 条 形 图 。 当 Pmf 中 值 的 数量 较 少 时 ,条 形 图 最 为 实用 。 
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。 使 用 thinkptLot.Pnfs 将 Pmf 绘制 为 阶梯 函数 。 如 果 Pmf 中 值 的 数量 很 多 而 且 分 布 曲线 
平滑 ， 这 个 方法 最 为 适宜 。 这 个 函数 也 可 以 绘制 Hist 对 象 。 





此 外 ，pyplot 还 提供 一 个 hist 函数 ， 以 一 列 值 为 参数 ， 计 算出 一 个 直方 图 ， 并 进行 绘制 。 
既然 我 已 经 使 用 了 Hist 对 象 ， 就 不 必 使 用 pyplot.hist 函数 了 。 




















图 3-1 展示 了 第 一 胎 和 其 他 胎 的 妊娠 期 PMF 的 条 形 图 〈 左 侧 ) 和 阶梯 函数 ( 右 侧 )。 
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图 3-1: 第 一 胎 和 其 他 胎 的 妊娠 期 PMF 的 条 形 图 和 阶梯 函数 
生成 图 3-1 的 代码 如 下 : 














thinkplot.Preplot(2, cols=2) 
thinkplot.Hist(first pmf, align='right', width=width) 
thinkplot.Hist(other_pmf, align='left', width=width) 
thinkplot.Config(xlabel='weeks', 
ylabel='probability', 
axis=[27, 46, 0, 0.6]) 


thinkplot.Preplot(2) 
thinkplot.Subplot(2) 
thinkplot.Pmfs([first_pmf, other_pmf]) 
thinkplot.Show(xlabel='weeks', 
axis=[27, 46, 0, 0.6]) 


通过 绘制 PMF 而 非 直 方 图 ， 我 们 可 以 不 受 样本 量 差异 的 影响 ， 对 两 个 分 布 进行 比较 。 从 
图 中 我 们 可 以 看 到 ， 比 起 其 他 胎 ， 第 一 胎 似乎 较 少 会 准时 出 生 (39 周 )， 而 更 可 能 会 较 晚 
出 生 (41 周 和 42 周 )。 











PrePlot 通过 两 个 可 选 参 数 rows 和 cols 将 图 形 显示 在 网 格 中 ， 上 述 代码 设置 将 图 形 显示 为 
一 行 两 列 。 第 一 个 图 形 ( 左 侧 ) 使 用 前 面 介绍 过 的 thinkplot.Hist 显示 Pmf。 
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代码 中 第 二 次 调用 的 PrePtot 方法 重 置 了 色彩 生成 器 ， 然 后 SubPlot 切换 到 第 二 个 图 形 
( 右 侧 )， 使 用 thinkplot.Pmf 绘制 Pmf 对 象 。 代 码 中 使 用 了 axis 参数 ， 确 保 两 张 图 位 于 同 
样 的 坐标 轴 上 。 如 有 果 要 比较 两 个 图 形 ， 设 置 axis 参数 通常 是 个 不 错 的 主意 。 


3.3 绘制 PMF 的 其 他 方法 

在 探索 数据 并 学 试 发 现 其 中 的 模式 和 关系 时 ， 直 方 图 和 了 PMEF 都 是 非常 实用 的 。 一 旦 你 对 数 
据 有 了 大 致 的 了 解 ， 下 一 步 最 好 设计 一 种 可 视 化 方法 ， 尽 可 能 清晰 地 展现 你 所 发 现 的 模式 。 
在 全 国家 庭 增长 调查 数据 中 ， 第 一 胎 和 其 他 数据 分 布 的 最 大 区 别 位 于 众 数 附近 。 因 此 ， 我 
们 应 该 对 图 形 中 的 这 部 分 进行 放大 ， 并 转换 数据 ， 以 强调 这 种 区 别 。 























weeks = range(35, 46) 

diffs = [] 

for week in weeks: 
pl = first_pmf.Prob(week) 
p2 = other_pmf.Prob(week) 
diff = 100 * (p1 - p2) 
diffs.append(diff) 


thinkplot.Bar(weeks, diffs) 




















在 这 段 代 码 中 ，weeks 是 周 数 范围 ，diffs 是 两 个 PMF 差异 的 百分数 。 图 3-2 将 结果 展示 
为 条 形 图 。 这 张 图 使 数据 模式 更 加 清晰 : 相 比 其 他 胎 ， 第 一 胎 较 少 在 第 39 周 出 生 ， 在 第 
41 周 和 第 42 周 出 生 的 可 能 性 稍 大 。 
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图 3-2: 按 周 显示 的 PMF 差异 百分点 
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目前 ， 我 们 应 该 对 此 结论 持 谨慎 态度 。 我 们 使 用 了 同一 个 数据 集 来 发 现 一 个 明显 差异 ， 然 
后 选择 一 种 可 视 化 方法 来 强调 这 一 差异 。 我 们 不 能 确定 这 种 效应 是 否 真 的 存在 ， 它 也 许 只 
是 随机 变化 的 结果 。 本 书 稍 后 将 解决 这 一 疑问 。 

4 A 外 
3.4 课堂 规模 悖 论 
在 继续 讨论 之 前 ， 我 要 演示 一 种 Pmf 对 象 的 计算 。 我 称 之 为 “课堂 规模 悖 论 ”。 









































在 很 多 美国 大 学 和 学 院 里 ， 学 生 与 教师 的 比率 约 为 10:1。 但 是 学 生 们 经 常会 惊讶 地 发 现 自 
己 课 上 的 平均 学 生 数 大 于 10。 造 成 这 一 现象 的 原因 有 两 个 : 








。 学 生 通 常 每 学 期 修 4 到 5 门 课 ， 但 是 教授 经 常 只 教工 门 或 2 门 ; 

。 上 小 课 的 学 生 很 少 ， 但 上 大 课 的 学 生 人 数 非 常 之 多 。 

一 旦 我 们 知道 了 第 一 个 原因 ， 其 效应 就 是 显而易见 的 。 第 二 个 就 不 那么 明显 了 。 让 我 们 来 
看 一 个 例子 。 假 设 一 所 学 院 某 学 期 开 了 65 门 课 ， 选 课 人 数 分 布 如 下 : 








size count 
5- 9 8 
10-14 8 
15-19 14 
20-24 4 
25-29 6 
30-34 12 
35-39 8 
40-44 3 
45-49 2 








如 果 你 问 院 长 ， 每 门 课 平 均 的 选课 人数 是 多 少 ， 他 会 构建 一 个 PMF， 计 算出 均值 ， 然 后 加 
答 说 选课 人 数 平均 为 23.7。 有 具体 实现 代码 如 下 : 











d={7:8， 12: 8, 17: 14, 22: 4， 
27: 6, 32: 12, 37: 8, 42: 3, 47: 2 } 


pmf = thinkstats2.Pmf(d, label='actual') 
print('mean', pmf.Mean()) 

















但 是 如 果 对 一 组 学 生 进 行 调查 ， 询 问 他们 的 课堂 上 有 多 少 学 生 ， 然 后 计算 出 均值 ， 那 么 会 
发 现 选课 人 数 的 平均 值 比 23.7 大 。 有 具体 大 多 少 呢 ? 
首先 ， 计 算出 学 生 观 察 到 的 分 布 ， 其 中 每 个 课堂 规模 值 的 概率 受到 选课 的 学 生 人 数 的 


¢6 上 旦 人 » 
影响 ”。 














def Biaspmf(pmf, label): 
new_pmf = pmf.Copy(label=label) 


for x, p in pmf.Items(): 





new_pmf .Mult(x, x) 


new_pmf .Normalize() 

return new_pmf 
对 每 个 课堂 规模 值 x， 我 们 将 其 概率 乘 以 x， 即 观察 该 课堂 规模 的 学 生 人 数 ， 能 得 到 
一 个 新 的 Pmf， 代 表 这 个 偏 倚 分 布 。 


现在 我 们 可 以 绘制 出 实际 分 布 和 观察 到 的 分 布 。 


biased_pmf = Biaspmf(pmf, label='observed') 
thinkpLot.PrePLot(2) 

thinkplot.Pmfs([pmf, biased_pmf]) 
thinkplot.Show(xlabel='class size', ylabel='PMF') 


图 3-3 展示 了 代码 的 运行 结果 。 在 偏 倚 分 布 中 ， 小 课 更 少 ， 大 课 更 多 。 偏 倚 分 布 的 均值 为 
29.1， 比 实际 的 均值 高 出 约 25%。 





I 于 
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图 3-3: 课堂 规模 的 实际 分 布 以 及 由 学 生 观 察 得 到 的 分 布 

我 们 也 可 以 反 向 进行 这 一 操作 。 假 设 你 希望 得 到 一 所 学 院 的 课堂 规模 分 布 ， 但 却 无 法 从 院 
长 处 得 到 可 靠 数据 。 你 可 以 采用 另 一 个 办 法 : 选择 学 生 的 一 个 随机 样本 ， 进 行 调 查 ， 询 问 
他 们 的 课堂 上 有 多 少 学 生 。 

因为 存在 我 们 前 面 讨论 过 的 原因 ， 所 以 这 个 调查 得 到 的 结果 是 偏 倚 的 ， 但 是 你 可 以 使 用 这 
一 结果 来 估算 实际 分 布 。 下 面 的 函数 对 一 个 Pmf 进行 “去 偏 傈 ”操作 : 














def Unbiaspmf(pmf, label): 
new_pmf = pmf.Copy(label=label) 


for x, p in pmf.Items(): 
new_pmf .Mult(x, 1.0/x) 


new_pmf .NormaLize() 
return new_pmf 





这 个 函数 与 BiasPmf 很 类 似 ， 唯 一 的 区 别 在 于 这 个 函数 将 每 个 概率 除 以 x， 而 不 是 乘 以 x。 


3.5 ”使 用 DataFrame 进 行 索引 


在 1.4 节 中 ， 我 们 读 取 了 一 个 pandas 的 DataFrame 对 象 ， 并 用 这 个 对 象 选 择 和 修改 数据 
列 。 现 在 让 我 们 看 看 如 何 进 行 数 据 行 的 选择 。 首 先 ， 创 建 一 个 NumPy 随机 数组 ， 用 它 初 
始 化 一 个 DataFrame。 























>>> import numpy as np 

>>> import pandas 

>>> array = np.random.randn(4, 2) 
>>> df = pandas.DataFrame(array) 


>>> df 

0 1 
0 -0.143510 0.616050 
1 -1.489647 0.300774 
2 -0.074350 0.039621 
3 -1.369968 0.545897 


默认 情况 下 ，DataFrame 的 行 和 列 都 是 从 0 开始 计数 的 ， 但 你 可 以 提供 列 名 。 





>>> columns = ['A', 'B'] 
>>> df = pandas.DataFrame(array, columns=columns) 


>>> df 

A B 
0 -0.143510 0.616050 
1 -1.489647 0.300774 
2 -0.074350 0.039621 
3 -1.369968 0.545897 


你 也 可 以 提供 行 名 。 行 名 的 集合 称 为 索引 (index) ， 行 名 则 称 为 标签 (label) 。 


>>> index = ['a'’, 'b', 'c', 'd'] 
>>> df = pandas.DataFrame(array, columns=columns, index=index) 
>>> df 
A B 
a -0.143510 0.616050 
b -1.489647 0.300774 
C -0.074350 0.039621 
d -1.369968 0.545897 


正如 我 们 在 前 一 章 看 到 的 ， 你 可 以 使 用 索引 选择 一 个 列 ， 返 回 一 个 Series 对 象 。 
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>>> df['A'] 


a -0.143510 
b -1.489647 
C -0.074350 
d -1.369968 


Name: A，dtype: fLoat64 





可 以 使 用 toc 属性 通过 标签 选择 一 行 ， 返 回 一 个 Series 对 象 。 





>>> df.Loc['a'] 

A -0.14351 

B 0.61605 

Name: a，dtype: fLoat64 








如 果 你 知道 一 行 的 整数 位 置 ， 而 不 是 它 的 标签 ， 则 可 以 使 用 itoc 属性 ， 它 也 可 以 返回 一 个 
Series 对 象 。 


>>> df.iloc[0] 

A -0.14351 

B 0.61605 

Name: a, dtype: float64 





loc 属性 也 可 以 以 一 列 标签 为 参数 ， 这 种 情况 下 会 返回 一 个 DataFrame 对 象 。 


>>> indices = ['a', 'c'] 
>>> df.loc[indices] 
A B 
a -0.14351 0.616050 
Cc -0.07435 0.039621 














ut 











最 后 ， 你 可 以 使 用 一 个 切片 ， 通 过 标签 选择 行 的 范围 。 


>>> df['a':'c'] 

A B 
a -0.143510 0.616050 
b -1.489647 0.300774 
C -0.074350 0.039621 





使 用 行 的 整数 行 号 也 可 以 实现 同样 的 操作 。 


>>> df[0:2] 

A B 
a -0.143510 0.616050 
b -1.489647 0.300774 

















(ed 





这 两 种 操作 都 返回 DataFrame 对 象 ， 但 是 请 注意 第 一 个 结果 包含 了 最 后 一 个 切片 ， 而 第 二 
个 结果 则 不 包含 。 





如 果 数 据 行 的 标签 不 是 简单 的 整数 ， 那 么 我 建议 你 在 代码 中 始终 使 用 标签 ， 避 免 使 用 整数 
的 行 号 。 





3.6 ”练习 
本 章 练习 的 参考 答案 位 于 chap03soln.ipynb 和 chap03soln.py 文件 中 。 


。 练习 3.1 

如 果 你 对 孩子 进行 调查 ， 询 问 他 们 家 中 有 几 个 兄弟 姐妹 ， 就 会 出 现 类 似 课堂 规模 悖 论 的 
情况 : 你 的 样本 中 更 可 能 出 现 有 很 多 孩子 的 家 庭 ， 而 根本 不 会 包括 没有 孩子 的 家 庭 。 
请 使 用 全 国家 庭 增长 调查 的 变量 NUMKDHH 构建 家 庭 中 未 满 18 岁 的 成 员 数量 的 实际 分 布 。 
如 果 我 们 对 孩子 进行 调查 ， 询 问 其 家 中 18 岁 以 下 成 员 (包括 他 们 自己 ) 的 数量 ， 请 计算 
这 一 调查 会 得 到 的 偏 倚 分 布 。 

请 绘制 实际 分 布 和 偏 倚 分 布 ， 并 计算 这 两 种 分 布 的 均值 。 你 可 以 在 chap03ex.ipynb 的 基础 
上 进行 修改 和 练习 。 




















。 练习 3.2 
在 2.6 市 中 ,我们 将 一 个 样本 中 的 元 素 累 加 后 除 以 x， 计 算出 样本 的 均值 。 如 果 给 定 一 个 
PMF， 你 仍然 可 以 计算 其 均值 ， 只 是 计算 过 程 发 生 了 少许 变化 : 


X= > Di 


其 中 x 是 PMEF 中 的 不 同 值 ，p=PMF(x,)。 类 似 地 ， 你 也 可 以 用 如 下 公式 计算 方差 : 





S27= Dp NO? 


请 编写 函数 PnfMean 和 Pnfvar， 以 Pmf 对 象 为 参数 ， 分 别 计算 其 均值 和 方差 。 请 检查 你 编 
写 的 函数 结果 与 Pmf 自 带 的 Mean 和 Var 方法 结果 是 否 一 致 ， 以 验证 函数 实现 是 否 正 确 。 


。 练习 3.3 
本 书 开 头 提 出 问题 :“ 第 一 胎 是 否 经 常 晚 于 预产期 出 生 ? ”为 了 回答 这 一 问题 ， 我 计算 了 
不 同 群 组 新 生 儿 的 均值 差异 ， 但 却 忽略 了 另 一 种 可 能 性 : 同一 位 母亲 的 第 一 胎 和 其 他 孩子 
之 间 可 能 存在 差异 。 


要 回答 这 个 问题 ， 请 选择 至 少 生育 两 胎 的 调查 参与 者 ， 计 算 不 同 群 组 的 差异 。 结 果 是 否 
不 同 ? 
































提示 : 使 用 nsfg.MakePregMap。 


。 练习 3.4 
在 大 部 分 跑步 比赛 中 ， 参 赛 者 都 同时 出 发 。 如 果 你 速度 很 快 ， 通 常会 在 比赛 刚 开始 后 超越 




















很 多 参赛 者 ， 但 在 跑 出 几 英 里 之 后 ， 周 围 的 选手 就 和 你 速度 一 样 了 。 

第 一 次 参加 长 距离 接力 (209 英里 ) 比赛 时 ， 我 注意 到 一 个 奇怪 的 现象 ， 当 我 超越 其 他 选 
手 时 ， 我 的 速度 通常 快 得 多 ， 当 别 的 选手 超越 我 时 ， 他 通常 比 我 跑 得 快 多 了 。 

一 开始 ， 我 认为 参赛 者 的 速度 分 布 可 能 两 极 分 化 ， 有 很 多 跑 得 很 慢 的 人 ， 也 有 很 多 跑 得 很 
快 的 人 ， 但 是 与 我 速度 相同 的 人 很 少 。 

后 来 我 意识 到 自己 受到 了 类 似 课堂 规模 效应 的 影响 。 这 场 比赛 有 两 点 特殊 性 : 比赛 是 分 段 
开始 的 ， 即 各 支队 伍 出 发 的 时 间 不 同 ， 而 且 很 多 队伍 中 选手 的 能 力 各 不 相同 。 


因此 ， 选 手 们 分 布 在 赛 道 各 处 ， 速 度 和 位 置 的 关系 并 不 大 。 当 我 加 入 比赛 时 ， 周 围 的 选手 
(几乎 ) 是 参赛 选手 的 一 个 随机 样本 。 


那么 这 种 偏 倚 是 怎么 产生 的 呢 ? 在 奔跑 过 程 中 ， 超 越 别 人 和 被 别人 超越 的 机 会 是 与 我 们 的 
速度 差 成 比例 的 。 我 更 有 可 能 追 上 速度 比 我 慢 的 选手 ， 也 更 有 可 能 被 速度 更 快 的 选手 超 
越 。 但 速度 相同 的 选手 却 不 太 可 能 相遇 。 


请 编写 一 个 函数 0bservedPmf ， 以 参赛 者 速度 实际 分 布 的 Pmf 和 一 位 参赛 观察 者 的 速度 为 
参数 ， 返 回 一 个 新 的 Pmf， 表 示 这 位 观察 者 看 到 的 选手 的 速度 分 布 。 












































你 可 以 使 用 relay.py 测试 自己 的 函数 。relay.py 文件 读 取 麻 省 Dedham 的 James Joyce 
Ramble 10 公里 马拉松 比赛 的 结果 数据 ， 并 将 每 位 参赛 者 的 速度 转换 为 每 小 时 英里 数 。 


假设 你 与 这 群 选手 一 起 以 每 小 时 7.5 英里 的 速度 参加 一 场 接力 赛 ， 请 计算 你 将 观察 到 的 速 
度 分 布 。 本 练习 的 参考 答案 在 relay_soln.py 中 。 


3.7 术语 


。 概率 质量 函数 (probability mass function ，PMF) 
将 概率 分 布 表 示 为 从 值 到 概率 的 映射 。 








。 概率 (probability) 
将 频数 表示 为 样本 量 的 分 数 。 








。 正 态 化 (normalization) 


将 频数 除 以 样本 量 以 获得 概率 值 的 过 程 。 




















。 索引 (index) 
在 pandas 的 DataFrame 中 ， 索 引 是 包含 行 标签 的 特殊 列 。 
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系 积分 布 函 数 





本 章 代 码 位 于 cumulative.py 中 。 前 言 介绍 了 如 何 下 载 和 使 用 本 书 代码 。 


4.1 PMF 的 局 限 


PMEF 适用 于 变量 值 数 量 较 少 的 情况 。 但 是 随 着 值 的 数量 增加 ， 每 个 值 对 应 的 概率 会 变 得 
来 越 小 ， 随 机 噪音 的 影响 就 会 变 大 。 





滋 

















例如 ， 我 们 可 能 对 新 生 儿 的 体重 分 布 感 兴趣 。 在 全 国家 庭 增 长 调查 的 数据 中 ， 变 量 
totalwgt_lb 记录 了 新 生 儿 的 体重 ， 单 位 为 磅 。 图 4-1 展示 了 第 一 胎 新 生 儿 和 其 他 胎 变 量 


totalwgt_1b 的 PMF。 
这 些 分 布 大 致 接近 正 态 分 布 的 钟 形 ， 靠 近 均 值 的 值 较 多 ， 两 端的 值 较 少 。 


但 是 我 们 很 难 对 这 个 图 形 中 的 某 些 部 分 进行 解释 。 图 中 有 很 多 的 “尖峰 ”和 “低谷 ”， 而 
且 两 个 分 布 有 明显 差别 。 从 图 中 我 们 很 难 分 辨 哪些 特征 是 有 意义 的 ， 而 且 也 不 容易 看 出 整 
体 模式 ， 如 哪个 分 布 的 均值 更 高 。 


为 了 解决 上 面 的 问题 ， 我 们 可 以 将 数据 分 区 ， 即 将 值 的 的 范围 划分 为 互 不 重 倒 的 区 间 ， 然 


后 计算 每 个 区 间 中 值 的 数目 。 分 区 是 很 实用 的 方法 ， 但 选择 区 间 大 小 并 不 容易 。 如 果 区 间 
太 大 ， 在 消除 噪音 的 同时 ， 也 可 能 会 消除 有 用 的 信息 。 





























避免 上 述 问题 的 另 一 个 方法 是 使 用 有 素 积 分 布 函 数 (cumulative distribution function，CDF) 。 
这 一 章 将 主要 介绍 CDF， 但 在 此 之 前 ， 我 们 需要 了 解 百 分 位 数 。 
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图 4-1: 新 生 儿 体重 的 PMF 展示 了 PMF 的 局 限 : 难以 通过 观察 进行 比较 


4.2” 百 分 位 数 

如 果 你 参加 过 标准 化 考试 ， 得 到 的 结果 可 能 是 原始 成 绩 和 百 分 位 秩 (percentile rank)。 在 
标准 化 考试 成 绩 中 ， 百 分 位 秩 是 比 你 成 绩 低 (或 相同 ) 的 人 的 比例 。 因 此 ， 如 果 你 “位 于 
第 90 百 分 位 ”， 就 说 明 你 的 成 绩 高 于 或 等 于 90% 参加 考试 的 人 。 


要 计算 序列 scores 中 的 一 个 值 your_score 的 百 分 位 秩 ， 可 以 使 用 如 下 代码 : 





def PercentileRank(scores, your_score): 
count = 0 
for score in scores: 
if score <= your_score: 
count += 1 


percentile_rank = 100.0 * count / Len(scores) 
return percentile_rank 





举 个 例子 ， 如 果 序 列 中 的 成 绩 值 为 56、66、77、88 和 99， 你 的 成 绩 是 88， 那 么 你 的 百 分 
位 秩 就 是 109 * 4 / 5， 即 80。 





从 一 个 值 计算 其 百 分 位 秩 很 容易 ， 但 反 过 来 就 有 些 难度 了 。 如 有 果 给 定 一 个 百 分 位 秩 ， 要 找 
出 其 对 应 的 值 ， 可 以 对 值 排序 ， 并 进行 查找 。 

















def Percentile(scores, percentile_rank): 
scores.sort() 
for score in scores: 
if PercentileRank(scores, score) >= percentile_rank: 
return score 




















这 个 计算 的 结果 是 一 个 百 分 位 数 (percentile)。 例 如 ， 第 50 百 分 位 数 是 百 分 位 秩 为 50 的 
值 。 在 之 前 给 出 的 考试 成 绩 分 布 中 ， 第 50 百 分 位 数 是 77。 


Percentile 的 实现 方法 性 能 欠 佳 。 更 好 的 方法 是 使 用 百 分 位 秩 计 算 相 应 的 百 分 位 数 索 引 。 








def Percentile2(scores, percentile_rank): 
scores.sort() 
index = percentile rank * (len(scores)-1) / 100 
return scores[index] 


“ 百 分 位 数 ” 和 “ 百 分 位 秩 ” 的 概念 容易 混淆 ， 常 有 人 用 错 。 概 括 地 说 ，PercentileRank 以 
一 个 值 为 参数 ， 计 算 这 个 值 在 一 组 值 中 的 百 分 位 秩 ，Percentile 以 一 个 百 分 位 秩 为 参数 ， 
计算 对 应 的 值 。 











4.3 CDF 


理解 百 分 位 数 和 百 分 位 秩 的 概念 后 ， 我 们 就 可 以 开始 讨论 累积 分 布 函数 (cumulative 
distribution function，CDF) 了 。CDF 将 一 个 值 映射 到 百 分 位 秩 。 




















CDF 是 x 的 函数 ， 其 中 x 是 可 能 出 现在 分 布 中 的 任意 值 。 要 获得 某 个 特定 值 x 的 CDFQ)， 
我 们 需要 计算 出 小 于 或 等 于 x 的 值 在 此 分 布 中 所 占 的 比例 。 


下 面 代码 中 的 函数 参数 为 一 个 序列 + 和 一 个 值 x。 

















def EvalCdf(t, x): 
count = 0.0 
for value in t: 
if vaLue <= x: 
count += 1 


prob = count / len(t) 
return prob 


这 个 函数 和 前 一 节 中 定义 的 PercentileRank 几乎 一 模 一 样 ， 但 是 这 个 函数 的 结果 为 0 到 1 
的 概率 ， 而 PercentileRank 的 结果 是 0 到 100 的 百 分 位 秩 。 


举 个 例子 ， 假 设 我 们 收集 到 的 样本 值 为 [1，2，2，3，5]， 以 下 是 这 个 样本 的 一 些 CDF 值 : 
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CDF(0) =0 
CDF(1) = 0.2 
CDF(2) = 0.6 
CDF(3) = 0.8 
CDF(4) = 0.8 
CDF(5)=1 





我 们 可 以 为 任意 值 x 计算 CDF， 而 不 仅 限于 样本 中 出 现 的 值 。 如 果 xx 小 于 样本 中 的 最 小 
值 ， 那 么 CDFQ) 为 0。 如 果 x 大 于 样本 中 的 最 大 值 ， 那 么 CDF(x) 为 1。 





























图 4-2 展示 了 这 个 CDF 函数 。 一 个 样本 的 CDF 是 一 个 阶梯 函数 。 





CDF 























4-2: CDF 示例 


4.4 表示 CDF 


thinkstats2 中 有 一 个 表示 CDF 的 类 Cdf。Cdf 提供 如 下 基本 方法 。 














。 Prob(x) 
对 给 定 的 值 x， 计 算 其 概率 p=CDF(x)。 方 括号 操作 符 等 同 于 Prob 方法 。 


。 Value(p) 
对 给 定 的 概率 p， 计 算 对 应 的 值 x， 即 p 的 CDF 反 函 数 (inverse CDF)。 





Cdf 的 构造 函数 参数 可 以 是 一 列 值 、 一 个 pandas Series、Hist、Pmf， 或 另 一 个 Cdf 对 象 。 
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下 面 的 代码 创建 了 全 国家 庭 增长 调查 中 妊娠 期 时 间 分 布 的 Cdf: 








live, firsts, others = first.MakeFrames() 
cdf = thinkstats2.Cdf(live.prglngth, label='prglngth') 











thinkplot 提供 一 个 函数 Cdf， 可 以 将 Cdf 绘制 为 折线 图 。 





thinkplot.Cdf(cdf) 
thinkplot.Show(xlabel='weeks', ylabel="'CDF') 








图 4-3 展示 了 绘制 结果 。 人 解读 CDF 的 方法 之 一 是 寻找 其 百 分 位 数 。 例 如 ， 从 图 中 我 们 可 以 
看 出 ， 大 约 10% 的 妊娠 期 不 超过 35 周 ， 大 约 90% 不 超过 41 周 。CDF 还 展现 了 分 布 的 形 
状 。 分 布 中 经 常 出 现 的 值 在 CDF 中 显示 为 陡峭 或 竖 直 的 折线 。 在 图 4-3 中 ， 我 们 可 以 明显 
看 出 位 于 39 周 的 众 数 。 图 中 小 于 30 周 的 值 很 少 ， 因 此 30 周 左 侧 的 折线 很 平缓 。 



































5 妊娠 期 


— prglngth 




















4-3: 妊娠 期 时 间 CDF 

熟悉 CDF 可 能 需要 一 定 的 时 间 ， 但 一 旦 了 解 ， 你 就 会 发 现 CDF 比 PMF 展示 的 信息 更 多 ， 
也 更 请 晰 。 

4.5 比较 CDF 


在 进行 分 布 比较 时 ，CDF 尤为 有 有 用。 例如， 下 面 一 段 代 码 绘制 了 第 一 胎 和 其 他 胎 新 生 儿 体 
重 的 CDF。 
































fiLrst_cdf 
other_cdf 


thinkstats2.Cdf(firsts.totalwgt lb, label='first') 
thinkstats2.Cdf(others.totalwgt_lb, label='other') 
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thinkpLot.PrePLot(2) 
thinkpLot.Cdfs([first_cdf，other_cdf]) 
thinkpLot .Show(xLabeL='weight (pounds)', ylabel='CDF') 


4-4 展示 了 绘制 结果 。 与 图 4-1 相 比 较 ， 图 4-4 更 清晰 地 展示 了 分 布 的 形状 以 及 分 布 之 


间 的 差异 。 从 图 中 我 们 可 以 看 出 ， 第 一 胎 新 生 儿 普遍 体重 较 轻 ， 而 且 大 于 均值 时 差异 更 为 
明显 。 











1 新 生 儿 体重 








0.8 


0.6 


CDF 


0.4 


0.2 

















4-4: 第 一 胎 和 其 他 情况 下 新 生 儿 体重 的 CDF 


4.6 ”基于 上 百 分 位 数 的 统计 量 
计算 出 CDF 之 后 ， 就 很 容易 计算 出 百 分 位 数 和 百 分 位 秩 。Cdf 类 为 此 提供 了 两 个 方法 。 
。 PercentileRank(x) 

对 给 定 的 值 *， 计 算 其 百 分 位 秩 ， 即 100 : CDFCo)。 


。 Percentile(p) 
对 给 定 的 百 分 位 秩 rank， 计 算 对 应 的 值 x。 等 价 于 Value(p/169)。 
Percentile 可 以 用 于 计算 基于 百 分 位 数 的 汇总 统计 量 。 例 如 ， 第 50 百 分 位 是 将 一 个 分 布 


划分 为 两 部 分 的 值 ， 也 称 为 中 位 数 (median)。 和 均值 一 样 ， 中 位 数 也 是 对 分 布 集中 趋势 
的 度量 。 

















实际 上 ,“ 中 位 数 ” 的 定义 有 好 几 种 ， 每 种 都 具有 不 同 的 属性 。 但 是 Percentile(59) 的 定 
义 非常 简单 ， 而 且 易 于 计算 。 


另 一 个 基于 百 分 位 数 的 统计 量 是 四 分 位 距 (interquartile range，IQR) ， 用 于 度量 一 个 分 布 
的 展 布 。 四 分 位 距 是 第 75 百 分 位 和 第 25 百 分 位 的 差 值 。 








通常 情况 下 ， 百 分 位 数 还 用 于 对 分 布 的 形状 进行 简要 描述 。 例 如 ， 人 们 经 常用 “五 等 份 分 
组 ”描述 收入 分 布 ， 即 按 第 20、40、60 和 80 百 分 位 数 来 分 组 。 其 他 分 布 则 划分 为 “十 等 
份 ”。 这 种 CDF 中 的 等 份 点 称 为 分 位 数 quantile)。 要 了 解 关 于 分 位 数 的 更 多 信息 ， 请 参 
学 https://en.wikipedia.org/wiki/Quantile。 


4.7 ”随机 数 


假设 我 们 要 从 成 功 生 产 的 总 体 中 选择 一 个 随机 样本 ， 并 查找 样本 中 新 生 儿 体重 的 百 分 位 
秩 。 如 果 我 们 计算 出 了 这 个 百 分 位 秩 的 CDF， 那 这 个 分 布 会 是 什么 样 的 呢 ? 


为 计算 这 个 分 布 ， 首 先 要 创建 新 生 儿 体重 的 Cdf。 























weights = Live.totaLwgt_Lb 
cdf = thinkstats2.Cdf(weights，LabeL='totaLwgt_Lb ' ) 


然后 ， 生 成 一 个 样本 ， 并 计算 样本 中 每 个 值 的 百 分 位 秩 。 














sample = np.random.choice(weights, 100, replace=True) 
ranks = [cdf.PercentileRank(x) for x in samplel] 


sample 是 新 生 儿 体重 的 一 个 随机 样本 ， 样 本 大 小 为 100， 使 用 放 回 (replacement) 抽样 ， 
即 同 一 个 值 可 以 选择 多 次 。ranks 是 百 分 位 秩 的 一 个 列表 。 


最 后 ， 创 建 这 些 百 分 位 秩 的 Cdf 并 进行 绘制 。 


























rank_cdf = thinkstats2.Cdf(ranks) 
thinkplot.Cdf(rank_cdf) 
thinkplot.Show(xlabel='percentile rank', ylabel='CDF') 





图 4-5 展示 了 绘制 结果 。 图 中 的 CDF 接近 一 条 直线 ， 说 明 这 个 分 布 是 均匀 的 。 
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4-5: 新 生 儿 体重 随机 样本 的 百 分 位 秩 CDF 

这 个 结果 可 能 不 那么 明显 ， 但 这 是 由 CDF 的 定义 方式 决定 的 。 这 个 图 形 显示 ， 样 本 中 
10% 的 值 小 于 第 10 百 分 位 数 ，20% 的 值 小 于 第 20 百 分 位 数 ， 以 此 类 推 ， 完 全 符合 预期 。 
因此 ， 无 论 CDF 的 形状 如 何 ， 甚 百 分 位 秩 的 分 布 都 是 均匀 的 。 这 个 属性 非常 有 用 ， 可 以 
作为 一 种 简单 有 效 算 法 的 基础 ， 使 用 给 定 的 CDF 生成 随机 数 。 具 体 方法 如 下 : 


。 从 0 到 100 中 均匀 地 选择 一 个 百 分 位 秩 ， 
。 使 用 Cdf.Percentile， 得 到 分 布 中 对 应 所 选 百 分 位 秩 的 值 。 






































Cdf 提供 一 个 方法 Random， 可 实现 上 述 算 法 。 


# cass Cdf: 
def Random(self): 
return self.Percentile(random.uniform(0, 100)) 

















Cdf 还 提供 一 个 方法 Sanpte， 甚 参数 为 整数 n， 返 回 从 Cdf 中 随机 选择 的 mn 个 值 列表 。 


4.8 比较 百 分 位 秩 


百 分 位 秩 可 以 用 来 比较 不 同 群 组 之 间 的 度量 值 。 例 如 ， 跑 步 比赛 的 选手 通常 按 年 龄 和 性 别 
分 组 。 要 比较 不 同年 龄 组 的 选手 ， 可 以 将 比赛 成 绩 转换 成 百 分 位 秩 。 

















几 年 前 ， 我 参加 了 在 麻 省 Dedham 举行 的 James Joyce Ramble 10 公里 比赛 ， 成 绩 为 42:44， 
在 1633 名 选手 中 排名 97。 我 超过 或 平 了 1633 名 选手 中 的 1537 名 ， 因 此 在 整个 比赛 中 的 
百 分 位 秩 为 94%。 
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给 定 排名 和 参赛 人 数 ， 我 们 可 以 计算 出 百 分 位 秩 。 





def PositionToPercentiLLe(position，fieLd_size): 
beat = field size - position + 1 
percentile = 100.0 * beat / fieLd_size 
return percentile 


我 所 在 年 龄 组 为 M4049， 即 “40~49 岁 的 男性 ”。 在 M4049 中 的 256 名 选手 中 ， 我 的 排名 
为 26。 因 此 ， 我 在 所 属 年 龄 组 中 的 百 分 位 秩 为 90%。 


如 果 10 年 之 后 我 还 在 跑步 (希望 如 此 )， 将 会 分 在 M5059 组 中 。 假 设 我 在 所 属 年 龄 组 中 的 
百 分 位 秩 依然 不 变 ， 那 么 会 比 现在 的 成 绩 慢 多 少 ? 


要 回答 这 个 问题 ， 我 可 以 将 自己 在 M4049 中 的 百 分 位 秩 转换 成 M5059 中 的 排名 ， 从 而 得 
到 答案 。 实 现代 码 如 下 : 














def PercentileToPosition(percentile, field size): 
beat = percentile * field size / 100.0 
position = field _ size - beat + 1 
return position 





M5059 组 中 有 171 名 选手 ， 因 此 我 的 成 绩 必须 位 于 第 17 位 或 第 18 位 成 绩 之 间 才 能 保持 现 
在 的 百 分 位 秩 。M5059 组 中 第 17 名 的 比赛 成 绩 是 46:05， 所 以 我 必须 跑 进 46:05 才能 保持 
90% 的 百 分 位 秩 。 











4.9 ”练习 


你 可 以 以 chap04ex.ipynb 为 基础 ， 进 行 下 面 的 练习 。 本 章 练习 的 参考 答案 位 于 chap04soln. 
ipynb 中 。 














。 练习 4.1 

你 出 生 时 的 体重 是 多 少 ? 如 果 不 知 道 ， 请 打 电 话 问 癌 你 的 妈妈 或 者 别 的 知情 人 。 请 使 用 全 
国家 庭 增长 调查 〈 所 有 成 功 生产 ) 的 数据 ， 计 算 新 生 儿 体重 的 分 布 ， 并 用 此 分 布 算出 你 所 
在 的 百 分 位 秩 。 如 果 你 是 第 一 个 孩子 ， 请 在 第 一 胎 的 新 生 儿 体重 分 布 中 计算 出 你 的 百 分 位 
秩 ， 否则 请 使 用 非 第 一 胎 的 分 布 数据 。 如 果 你 的 百 分 位 秩 等 于 或 大 于 90， 请 打 电 话 给 你 的 
妈妈 ， 为 自己 给 她 带 来 的 麻烦 道歉 。 


























。 练习 4.2 
random.randonm 生成 的 随机 数 应 该 均匀 分 布 在 0 和 1 之 间 ， 即 此 范围 中 的 每 个 值 被 选中 的 
概率 都 应 该 相同 。 

















请 使 用 random.random 生成 1000 个 随机 数 ， 绘 制 这 些 数 的 PMF 和 CDF。 这 些 随机 数 的 分 
布 是 均匀 的 吗 ? 
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.10 术语 


百 分 位 秩 (percentile rank) 
一 个 分 布 中 小 于 或 等 于 给 定 值 的 百分比 。 


百 分 位 数 (percentile) 
与 给 定 百 分 位 秩序 相关 联 的 值 。 


累积 分 布 函 数 (cumulative distribution function，CDF) 
将 值 映射 到 累积 概率 的 函数 。CDF(x) 是 样本 中 小 于 或 等 于 x 的 值 所 占 的 比例 。 


























CDF 反串 数 (inverse CDF) 
从 累积 概率 疡 映射 到 对 应 值 的 函数 。 














中 位 数 (median) 
位 于 第 50 百 分 位 的 值 ， 经 常用 于 度量 集中 趋势 。 

















四 分 位 距 (interquartile range) 


第 75 百 分 位 数 和 第 25 百 分 位 数 之 间 的 差异 ， 用 于 度量 展 布 。 














分 位 数 (quantile) 
对 应 于 等 距 百 分 位 秩 的 一 列 值 。 例 如 ， 一 个 分 布 的 四 分 位 数 为 第 25 百 分 位 数 、 第 50 百 
分 位 数 和 第 75 百 分 位 数 。 




















放 回 (replacement) 
采样 过 程 的 一 种 属性 。“ 放 回 ” 是 指 同一 个 值 可 以 选择 多 次 ;“ 不 放 回 ”是 指 一 个 值 一 旦 
被 选中 ， 就 从 总 体 中 移 除 。 
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分 布 建 模 





目前 为 止 ， 我 们 使 用 的 分 布 都 是 基于 有 限 样本 的 经 验 观 察 ， 因 此 称 为 经 验 分 布 (empirical 


distribution ) 。 





在 经 验 分 布 之 外 还 有 分 析 分 布 (analytic distribution) 。 分 析 分 布 的 CDF 是 一 个 数学 函数 。 
分 析 分 布 可 以 用 作 经 验 分 布 的 建 模 。 此 处 所 说 的 模型 (model) 是 一 种 简化 ， 以 去 除 不 必 
要 的 细节 。 本 章 将 介绍 常用 的 分 析 分 布 ， 以 及 如 何 使 用 这 些 分 析 分 布 对 各 种 数据 建 模 。 


本 章 代码 位 于 analytic.py 中 。 前 言 介 绍 了 如 何 下 载 和 使 用 本 书 代码 。 


5.1 指数 分 布 


指数 分 布 (exponential distribution) 相对 简单 ， 所 以 我 们 先 从 指数 分 布 开始 。 指 数 分 布 的 
CDF 为 : 








CDF(x) = 1 — e-* 


参数 4 决定 了 分 布 的 形状 。 图 5-1 展示 了 当 4=0.5、1 和 2 时 CDF 的 形状 。 





在 现实 世界 中 ， 如 果 我 们 观察 一 系列 事件 ， 对 事件 发 生 的 时 间 间 隅 ， 即 到 达 间 隔 
(interarrival time) 进行 测量 ， 可 能 会 得 到 指数 分 布 。 如 果 事 件 在 任意 时 间 发 生 的 可 能 性 相 
同 ， 到 达 间 隔 的 分 布 就 会 近似 一 个 指数 分 布 。 
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指数 分 布 的 CDF 




















5-1; 不 同 参数 的 指数 分 布 的 CDF 


举例 说 明 ， 让 我 们 来 看 看 婴儿 出 生 的 到 达 间 隔 。1997 年 12 月 18 日 ， 澳 大 利 亚 布 里 斯 班 的 
一 家 医院 有 44 个 婴儿 出 生 '， 当 地 报纸 报道 了 这 些 婴 儿 的 出 生 时 间 。Thinkstats2 代码 库 中 
的 babyboom.dat 文件 包含 了 这 44 个 婴儿 出 生 时 间 的 完整 数据 。 





df = ReadBabyBoom() 
diffs = df.minutes.diff() 
cdf = thinkstats2.Cdf(diffs, label='actual') 


thinkplot.Cdf(cdf) 
thinkplot.Show(xlabel='minutes', ylabel='CDF') 


ReadBabyBoon 方法 读 取 数据 文件 并 返回 一 个 DataFrame 对 象 ， 对 象 的 列 名 为 ttme、sex、 
weight_g 和 minutes， 其 中 minutes 是 出 生 时 间距 离 零点 的 分 钟 数 。 








加 











diffs 是 相 邻 出 生 时 间 的 间隔 ，cdf 是 这 些 到 达 间 隔 的 分 布 。 图 5-2 〈 左 ) 展示 了 CDF。 
中 的 分 布 看 起 来 很 像 指数 分 布 ， 但 是 我 们 如 何 确定 呢 ? 


一 种 方法 是 以 log-y 为 纵 轴 ， 绘 制 CDF 补 函数 (complementary CDF，CCDF) ， 即 1-CDF(x)。 
对 于 指数 分 布 的 数据 ， 绘 制 结果 将 是 一 条 直线 。 让 我 们 看 看 其 中 的 原理 。 














注 1: 这 个 示例 的 信息 和 数据 来 自 Dunn 的 “A Simple Dataset for Demonstrating Common Distributions”， 发 
表 于 Journal of Statistics Education v.7, n.3 (1999)。 
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图 5-2: 到 达 间 隔 CDF ( 左 ) 和 以 log-y 为 纵 轴 的 CCDF ( 右 ) 
如 果 你 认为 一 个 数据 集 是 指数 分 布 ， 那 么 绘制 其 CDF 补 函 数 时 ， 预 期 看 到 的 函数 将 是 : 














两 边 取 对 数 ， 得 到 : 


因此 ， 如 果 以 log-y 为 纵 轴 ，CCDF 函数 将 是 一 条 斜率 为 -4 的 直线 。 我 们 可 以 使 用 如 下 代 
码 生成 这 个 图 形 : 





thinkplot.Cdf(cdf, complement=True) 

thinkplot.Show(xlabel='minutes', 
yLabeL='CCDF ' ， 
ySscaLe='Log ' ) 





指定 参数 complement=True 后 ，thinkplot.Cdf 会 在 绘制 图 形 之 前 计算 CDF 补 函 数 。 指 定 
参数 yscale='log' 后 ，thinkpLot.Show 会 将 》 轴 设置 为 对 数值 。 


图 5-2 ( 右 ) 展示 了 这 段 代 码 的 结果 。 图 中 的 线 不 是 很 直 ， 说 明 指数 分 布 并 不 是 这 组 数据 
的 完美 模型 。 之 前 的 假设 一 一 婴儿 在 一 天 中 的 任何 时 间 出 生 的 可 能 性 相同 ， 很 可 能 并 不 成 
立 。 尽 管 如 此 ， 使 用 指数 分 布 对 这 个 数据 集 进 行 建 模 有 可 能 是 合理 的 。 经 过 这 种 简化 ， 我 
门 用 一 个 参数 就 可 以 概括 这 个 分 布 。 

参数 4 可 以 解释 为 一 个 比率 ， 即 事件 在 一 个 时 间 单 元 内 发 生 的 平均 次 数 。 在 我 们 所 举 的 例 


子 中 ，24 小 时 内 出 生 了 44 个 婴儿 ， 因 此 这 个 比率 为 4 等 于 每 分 钟 0.030 6 个 婴儿 出 生 。 指 
数 分 布 的 均值 为 14， 故 婴儿 出 生 时 间 的 时 间 间 隔 均值 为 32.7 分 钟 。 
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5.2 正 态 分 布 


正 态 分 布 (normal distribution) 也 称 为 高 斯 分 布 ， 因 其 能 近似 描述 很 多 现象 而 得 到 广泛 使 
用 。 实 际 上 ， 正 态 分 布 无 处 不 在 是 有 原因 的 ， 我 们 将 在 14.4 节 进 行 讨论 。 


正 态 分 布 由 两 个 参数 决定 : 均值 人 4 和 标准 差 c。 = 0 且 o = 1 的 正 态 分 布 称 为 标准 正 态 分 
布 (standard normal distribution) 。 标 准 正 态 分 布 的 CDF 是 用 积分 定义 的 ， 没 有 封闭 解 ， 但 
有 些 算法 可 以 进行 有 效 的 估算 。SciPy 就 提供 了 一 种 这 样 的 算法 : scipy.stats.nornm 是 一 
个 表示 正 态 分 布 的 对 象 ， 提 供 方法 cdf ， 计 算 标 准 正 态 的 CDF。 





>>> import scipy.stats 
>>> scipy.stats.norm.cdf(0) 
Qi.5. 


这 个 结果 是 正确 的 。 标 准 正 态 分 布 的 中 位 数 是 0 (与 均值 相同 )， 分布 中 一 半 的 值 小 于 中 位 
数 ， 因 此 CDF(0) 为 0.5。 




















norm.cdf 的 可 选 参数 Loc 可 以 指定 均值 ，scale 可 以 指定 标准 差 。 














thinkstats2 提供 一 个 更 易于 使 用 的 函数 EvaLNormaLCdf ， 其 参数 为 mu 和 sigma， 计算 x 的 CDF。 


def EvalNormalCdf(x, mu=0, sigma=1): 
return scipy.stats.norm.cdf(x, loc=mu, scale=sigma) 














5-3 展示 了 一 组 具有 不 同 参 数 的 正 态 分 布 的 CDF。 这 些 曲 线 表 现 出 的 S 形 就 是 正 态 分 布 
的 显著 特征 。 
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5-3: 一 组 具有 不 同 参 数 的 正 态 分 布 的 CDF 
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在 前 一 章 ， 我 们 研究 了 全 国家 庭 增长 调查 中 新 生 儿 体重 的 分 布 。 图 5-4 展示 了 所 有 成 功 生 
产 的 新 生 儿 体重 的 经 验 CDF， 以 及 具有 相同 均值 和 方差 的 正 态 分 布 的 CDF。 


模型 
一 数据 


























新 生 儿 体重 


1.0 


0.8 上 
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CDF 
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0.2 上 
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新 生 儿 体重 ( 磅 ) 




















5-4: 使 用 正 态 模型 的 新 生 儿 体重 CDF 


使 用 正 态 分 布 作为 这 个 数据 集 的 模型 非常 合适 ， 因 此 如 果 我 们 用 参数 yj = 7.28 和 o = 1.24 
概括 描述 这 个 分 布 ， 结 果 误 差 (模型 和 数据 之 间 的 差 ) 将 会 很 小 。 


在 低 于 第 10 百 分 位 数 的 部 分 ， 数 据 和 模型 之 间 存在 差距 。 相 比 正 态 分 布 中 的 期 望 值 ， 实 
际 数据 中 体重 较 轻 的 新 生 儿 更 多 。 如 果 我 们 要 专门 研究 早产 儿 ， 就 必须 把 这 部 分 分 布 摘 述 
正确 ， 因 此 使 用 正 态 模型 未 必 合 适 


5.3 正 态 概率 图 


对 于 指数 分 布 和 一 些 其 他 分 析 分 布 ， 我 们 可 以 通过 简单 转换 来 验证 一 个 分 析 分 布 模型 是 否 
适用 于 一 个 数据 集 。 


对 于 正 态 分 布 ， 则 不 存在 这 样 的 转换 ， 但 我 们 可 以 使 用 另外 一 种 方法 : 正 态 概 率 图 
(normal probability plot)。 有 两 种 方法 可 生成 正 态 概率 图 : 困难 方法 和 简单 方法 。 如 果 你 
对 困难 方法 感 兴趣 ， 请 参考 https://en.wikipedia.org/wiki/Normal_probability_plot。 简 单方 
法 如 下 : 


(D 将 样本 中 的 值 排序 
(2) 从 一 个 标准 正 态 分 布 (1=0，a = 1)， 生 成 一 个 随机 样本 并 排序 ， 样 本 大 小 与 需要 建 模 
的 样本 一 样 ， 





























分 布 建 模 | 49 


(3) 绘制 样本 的 排序 值 和 随机 值 。 


如 果 样 本 的 分 布 接 近 正 态 分 布 ， 那么 绘制 结果 将 为 一 条 直线 ， 截 距 为 mu， 斜率 为 sigma。 
thinkstat2 提供 一 个 方法 NormalProbability， 参 数 为 一 个 样本 ， 返 回 两 个 NumPy 数组 : 





xs, ys = thinkstats2.NormalProbability(sample) 





ys 包含 sample 对 象 中 排序 后 的 值 ，xs 包含 从 标准 正 态 分 布 得 到 的 随机 值 。 











为 了 测试 NormalProbability， 要 生成 一 些 伪 样 本 ,这些 样本 实际 上 抽取 自 具 有 不 同 参 数 的 
正 态 分 布 。 图 5-5 展示 了 结果 。 图 中 的 线 近似 直线 ， 尾 部 的 值 偏离 程度 较 高 。 















































样本 值 








一 4 -3 -2 


-1 0 1 2 3 4 
标准 正 态 样本 














5-5: 正 态 分 布 中 随机 样本 的 正 态 概率 图 


让 我 们 来 试 试 使 用 真实 数据 。 接 下 来 的 代码 将 为 前 一 市 中 的 新 生 儿 数据 生成 正 态 概 
率 图 ， 其 中 灰色 的 线 表示 模型 ， 蓝 色 的 线 表 示 真 实数 据 。 


当 
再 











def MakeNormalPlot(weights): 
mean = weights.mean() 
std = weights.std() 


xs = [-4, 4] 
fxs, fys = thinkstats2.FitLine(xs, inter=mean, slope=std) 
thinkplot.Plot(fxs, fys, color='gray', label='model') 


xs, ys = thinkstats2.NormalProbability(weights) 
thinkplot.Plot(xs, ys, label='birth weights') 





weights 是 一 个 pandas Series 对 象 ， 代 表 新 生 儿 体重 。mean 和 std 分 别 表 示 均 值 和 标准 差 。 


FitLine 方法 的 参数 为 xs、 截 距 和 斜率， 返回 值 为 xs 和 ys， 代表 参 数 既 定 的 直线 在 xs 中 
所 取 的 值 。 


NormalProbability 返回 xs 和 ys， 包 含 了 标准 正 态 分 布 的 值 以 及 weights 中 的 值 。 如 果 
weights 符合 正 态 分 布 ， 那 么 数据 应 该 与 模型 相符 。 


图 5-6 展示 了 所 有 成 功 生产 及 足 月 (孕期 超过 36 周 ) 生产 的 新 生 儿 体重 的 正 态 概率 图 。 两 
条 曲线 都 在 靠近 均值 的 部 分 与 模型 相符 ， 尾 部 出 现 偏差 。 最 重 的 新 生 儿 比 模型 预期 的 更 
重 ， 最 轻 的 新 生 儿 则 比 模型 预期 的 更 轻 。 


一 成 功 生 产 
1 是 月 生产 
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与 均值 的 标准 差 











图 5-6: 新 生 儿 体重 的 正 态 概率 图 


如 果 我 们 只 选择 足 月 生产 的 数据 ， 那 么 可 以 去 除 一 部 分 最 轻 的 体重 ， 减 少 分 布 中 左 尾 的 
偏差 。 


这 张 图 说 明 ， 在 距 均值 几 个 标准 差 的 范围 内 ， 正 态 模型 可 以 很 好 地 描述 样本 数据 的 分 布 ， 
但 尾部 偏差 较 大 。 至 于 这 个 模型 能 否 满 足 实际 需求 ， 就 要 看 具体 需求 究竟 是 什么 了 。 


5.4 ”对 数 正 态 分 布 


如 果 一 组 值 的 对 数 符合 正 态 分 布 ， 那 么 这 组 值 就 符合 对 数 正 态 分 布 (lognormal distribution)。 
对 数 正 态 分 布 的 CDF 和 正 态 分 布 的 CDF 一 样 ， 只 不 过 将 公式 中 的 x 替换 为 了 logx。 
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CDFPFiognorma (x)=CDF,omallogx) 


对 数 正 态 分 布 的 参数 通常 写 为 4 和 c。 但 是 请 记 住 ， 这 两 个 参数 并 不 是 均值 和 标准 差 。 对 
数 正 态 分 布 的 均值 为 exp(Uu+ay2)， 标 准 差 的 公式 比较 复杂 ， 请 参考 http://wikipedia.org/ 


wiki/Log-normal_distribution。 


如 果 一 个 样本 近似 对 数 正 态 分 布 ， 那 么 以 log-x 为 纵 轴 绘 制 其 CDF， 得 到 的 图 形 会 具备 正 
态 分 布 的 特征 。 要 测试 样本 与 对 数 正 态 模型 的 拟 合 度 ， 可 以 使 用 样本 中 值 的 log 值 绘制 一 








个 正 态 概 率 图 。 

















举 个 例子 ， 让 我 们 来 看 看 成 年 人 的 体重 分 布 ， 这 个 分 布 大 致 符合 对 数 正 态 分 布 。" 


作为 行为 危险 因素 监测 系统 的 一 部 分 ， 国 家 慢性 病 预防 和 健康 促进 中 心 每 年 都 会 进行 一 项 
调查 。”2008 年 ， 国 家 慢性 病 预防 和 健康 促进 中 心 调查 了 414 509 名 受 访 者 ， 询 问 了 他 们 
的 人 口 统计 特征 、 健 康 状况 和 健康 风险 ， 在 收集 的 数据 中 ， 就 包括 398 484 名 调查 参与 者 

















的 体重 (单位 为 千克 )。 


本 书 代 码 库 中 包含 CDBRFS08.ASC.gz， 这 是 一 个 等 宽 列 的 ASCII 码 文 件 ， 其 中 涵盖 来 自 
BREFSS 的 数据 。 代 码 库 中 还 有 一 个 brfss.py 文件 ， 能 够 读 取 数据 文件 并 进行 分 析 。 














图 5-7 ( 左 ) 展示 了 使 用 线性 刻度 的 成 年 人 体重 的 分 布 和 正 态 模 型 。 图 5-7 ( 右 ) 使 用 对 数 





刻度 展示 了 同样 的 分 布 和 对 数 正 态 模 型 。 对 数 正 态 模型 更 符合 成 年 人 
在 图 5-7 中 可 以 看 到 两 种 模型 在 拟 合 度 上 的 差别 并 不 明显 。 








体重 分 布 ， 但 是 我 们 


注 1: 我 最 初 是 在 http://mathworld.wolfram.com/LogNormalDistribution.html 上 看 到 成 年 人 的 体重 符合 对 数 














正 态 分 布 ， 但 是 这 个 网 页 没有 给 出 援引 的 出 处 。 后 来 我 找到 了 一 篇 论文 ， 








其中 提出 了 数据 转换 的 方 














法 ， 并 对 原因 进行 了 推出 。 这 篇 论文 为 Penman and Johnson 的 “The Changing Shape of the Body Mass 





Index Distribution Curve in the Population” , Preventing Chronic Disease, 2006 July; 3(3): A74。 你 可 以 在 





线 阅 读 这 篇 论文 : http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1636707。 





注 2: Centers for Disease Control and Prevention (CDC). Behavioral Risk Factor Surveillance System Survey 


Data. Atlanta, Georgia: U.S. Department of Health and Human Services, Centers for Disease Control and 


Prevention, 2008. 
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图 5-7: 使 用 线性 刻度 ( 左 ) 和 对 数 刻 度 〈 右 ) 的 成 年 人 体重 CDF 




















图 5-8 展示 了 成 年 人 体重 w 及 其 对 数 logiow 的 正 态 概率 图 。 在 图 5-8 中 ， 我 们 看 到 数据 很 

















明显 地 偏离 了 正 态 模 型 。 在 均值 的 几 个 标准 差 范围 内 ， 对 数 正 态 分 布 与 数据 吻合 较 好 ， 但 
是 在 尾部 也 出 现 了 偏离 。 我 认为 对 数 正 态 分 布 模型 很 好 地 模拟 了 成 年 人 的 体重 数据 。 
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图 5-8: 使 用 线性 刻度 ( 左 ) 和 对 数 刻度 〈 右 ) 的 成 年 人 体重 正 态 概率 图 


5.5 Pareto 分布 


Pareto 分 布 (Pareto distribution) 是 以 经 济 学 家 Vilfredo Pareto 的 名 字 命 名 的 。Pareto 最 
初 使 用 这 个 模型 描述 财富 分 布 (参见 http://wikipedia.org/wiki/Pareto_distribution) ， 之 后 


人 们 用 这 个 模型 描述 各 种 
灾 和 地 震 。 





自然 和 说 





:会 科学 现象 ， 如 城镇 人 口 规 模 、 沙 粒 和 流星 、 和 森林 火 





分 布 建 模 | 53 


Pareto 分 布 的 CDF 为 : 


一 0 
= 
CDF (x)= 1 











参数 x,, 和 a 决定 了 分 布 的 位 置 和 形状 。x, 是 分 布 中 可 能 出 现 的 最 小 值 。 图 5-9 展示 了 
xn = 0.5， 具 有 不 同 a 值 的 Pareto 分 布 的 CDF。 
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5-9， 具 有 不 同 参数 的 Pareto 分 布 的 CDF 


有 一 种 通过 肉眼 判断 就 能 检验 一 个 经 验 分 布 是 否 符合 Pareto 分 布 的 简单 方法 ， 即 如 果 横 轴 
和 纵 轴 都 使 用 对 数 刻 度 ， 那 么 CCDF 看 起 来 会 是 一 条 直线 。 让 我 们 看 看 其 中 的 原理 。 





























对 于 符合 Pareto 分 布 的 一 个 样本 ， 如 果 使 用 线性 刻度 绘制 其 CCDF， 那 么 预期 会 看 到 的 函 
数 如 下 : 














公式 两 边 取 对 数 ， 可 以 得 到 : 
logy = —a(logx—logx,) 


因此 ， 如 果 以 logx 为 横 轴 ，logy 为 纵 轴 ， 那 么 得 到 的 函数 图 形 会 近似 一 条 直线 ， 斜 率 
为 -a， 截 距 为 alogx,,。 


让 我 们 以 城镇 人 口 规模 为 例 进行 讨论 。 美 国 统计 局 (U.S. Census Bureau) 负责 发 布 美国 每 
个 城镇 的 人 口 数 。 
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邮 


我 从 http://www.census.gov/popest/data/cities/totals/2012/SUB-EST2012-3.html 下 载 了 数 
据 ， 放 在 本 书 代 码 库 的 PEP_2012_PEPANNRES_with_ann.csv 文件 中 。 代 码 库 中 还 有 一 个 
population.py 文件 ， 负 责 读 取 数 据 文 件 ， 并 绘制 人 口 分 布 图 。 

5-10 展示 了 横 轴 和 纵 轴 都 使 用 对 数 刻 度 的 的 人 口 CCDF。 图 中 人 口 最 多 的 1% 城镇 ， 即 
小 于 10 ”的 部 分 ， 基 本 是 一 条 直线 。 因 此 ， 我 们 可 以 得 出 和 其 他 一 些 研究 者 相同 的 结论 ， 
即 城镇 人 口 分 布 的 尾部 符合 Pareto 模型 。 
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5-10; 横 轴 和 纵 轴 都 使 用 对 数 刻度 的 城镇 人 口 的 CCDF 


男 一 方面 ， 对 数 正 态 分 布 也 可 以 很 好 地 模拟 城镇 人 口 数 据 。 图 5-11 展示 了 城镇 人 口 规模 的 
CDF 和 对 数 正 态 模型 ( 左 )， 以 及 正 态 概率 图 ( 右 )。 两 个 图 中 的 数据 和 模型 都 相当 吻合 。 
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图 5-11: 使 用 对 数 刻 度 横 轴 的 城镇 人 口 规 模 的 CDF ( 左 )， 以 及 经 过 对 数 转 换 的 人 口 规模 的 正 态 
率 图 ( 右 ) 
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这 两 个 模型 都 不 完美 。Pareto 模型 只 适合 人 口 规模 最 多 的 1% 的 城镇 ， 但 在 这 部 分 的 拟 合 
度 更 高 。 对 数 正 态 模型 对 其 他 99% 的 城镇 拟 合 度 更 高 。 使 用 哪个 模型 更 合适 ， 取 决 于 我 们 
关注 的 是 分 布 的 哪 一 部 分 。 


5.6 随机 数 生成 
我 们 可 以 使 用 分 析 CDF， 根 据 给 定 的 分 布 函数 p = CDF(x)， 生 成 随机 数 。 如 果 我 们 有 计算 


CDF 反 国 数 的 有 效 方法 ， 就 可 以 从 0 到 !1 的 均匀 分 布 中 选择 p， 然 后 得 到 x = ICDF(p)， 从 
而 为 适当 的 分 布 生成 随机 数 。 


例如 ， 指 数 分 布 的 CDF 为 : 

p=1-e-t 
求解 x 的 公式 为 : 

=— log(l 一 D)/4 


因此 ， 我 们 可 以 编写 如 下 Python 代码 : 





def expovariate(Lam) : 
p = random.random() 
x = -math.log(1-p) / lam 
return x 


国 数 expovariate 的 参数 为 lam， 返 回 使 用 Lam 从 指数 分 布 中 选取 的 一 个 随机 数 。 


这 段 代 码 有 两 点 需要 注意 。Lambda 是 Python 关键 字 ， 因 此 我 使 用 Lam 为 参数 名 。 另 外 ， 因 
为 log 0 没有 定义 ， 所 以 我 们 必须 小 心 处 理 。random.randon 返回 值 可 以 为 0， 但 不 会 为 1， 
因此 1-zP 可 能 为 1， 但 不 会 为 0，log(1-p) 不 会 出 现 没 有 定义 的 情况 


5.7 为 什么 使 用 模型 


我 在 本 章 开 头 说 过 ， 现 实 世 界 的 很 多 现象 都 可 以 用 分 析 分 布 进行 建 模 。 你 可 能 会 问 :“ 那 
又 如 何 ? “ 


和 所 有 模型 一 样 ， 分 析 分 布 也 是 一 种 抽象 ， 忽 略 了 无 关 的 细节 。 例 如 ， 一 个 观测 分 布 可 能 
人 带 有 测量 误差 或 这 个 样本 的 独 有 特征 ， 分 析 模 型 将 这 些 特 殊 性 都 消除 了 。 


分 析 模 型 也 是 一 种 数据 压缩 形式 。 如 果 模 型 很 好 地 拟 合 了 一 个 数据 集 ， 那 么 我 们 只 需 几 个 
参数 便 可 对 大 量 的 数据 进行 概括 。 


























有 上 时候， 我 们 会 惊讶 地 发 现 一 种 自然 现象 符合 某 个 分 析 分 布 ， 而 这 些 观察 可 以 帮助 人 们 
更 好 地 了 解 物理 系统 。 有 时 我 们 可 以 对 一 个 观测 分 布 为 何 具 有 某 种 形态 作出 解释 。 例 
如 ，Pareto 分 布 经 常 是 由 带 有 正 反馈 的 生成 性 过 程 〈 所 谓 的 偏好 依附 过 程 ， 请 参考 http:/ 
wikipedia.org/wiki/Preferential_attachment) 导致 的 。 














而 且 ， 分 析 分 布 很 容易 进行 数学 分 析 。 第 14 章 将 会 对 此 进行 讨论 。 


但 是 ， 我 们 必须 记 住 : 所 有 模型 都 是 不 完美 的 。 现 实 世界 的 数据 永远 不 会 完美 地 符合 一 个 
分 析 分 布 。 人 们 谈论 数据 时 ， 有 时 听众 会 感觉 这 些 数据 好 像 是 由 模型 生成 的 。 例 如 ， 人 们 
可 能 会 说 人 类 的 身高 符合 正 态 分 布 ， 或 者 收入 符合 对 数 正 态 分 布 。 严 格 说 来 ， 这 些 说 法 不 
可 能 是 正确 的 ， 现 实 世 界 和 数学 模型 之 间 总 是 存在 着 差异 。 




















如 果 模 型 描述 了 真实 世界 的 相关 特征 ， 省 略 了 不 必要 的 细节 ， 那 么 模型 就 是 有 用 的 。 但 
是 ， 什 么 是 “相关 ”的 ， 什 么 是 “不 必要 ”的 ， 这 取决 于 你 将 这 个 模型 用 于 何 种 用 途 。 


5.8 ”练习 


你 可 以 以 chap05ex.ipynb 为 基础 ， 进 行 下 面 的 练习 。 本 章 练习 的 参考 答案 位 于 chap05soln. 
ipynb 中 。 

















。 练习 5.1 
在 BRFSS (参见 5.4 节 ) 中 ， 身 高 分 布 大 致 符合 正 态 分 布 。 男 性 身高 分 布 的 4 = 178 cm， 
aa=7.7cm; 女性 身高 分 布 的 4= 163 cm, o=7.3 cm。 





如 果 你 想 加 入 Blue Man Group， 那 么 身高 必须 在 5 尺 10 寸 <6 尺 1 寸 ( 参 见 http:/ 
bluemancasting.com)。 美 国 男性 人 口中 有 百 分 之 多 少 属 于 这 个 身高 范围 ? 提示 : 使 用 


scipy.stats.norm.cdf, 





























。 练习 5.2 

为 了 体验 一 下 Pareto 分 布 ， 让 我 们 来 看 看 ， 如 果 人 类 身高 符合 Pareto 分 布 ， 世 界 将 会 多 么 
不 同 。 使 用 参数 x,, = 1 m，a = 1.7， 我 们 得 到 一 个 Pareto 分 布 ， 最 小 值 为 1 m， 中 位 数 为 
1.3 m。 





请 绘制 这 个 分 布 。Pareto 世界 中 的 人 类 身高 均值 是 多 少 ? 身高 未 达到 均值 的 人 口 比 例 是 多 
少 ? 如 果 Pareto 世界 中 有 70 亿 人 ， 那 么 将 有 多 少 人 高 于 1 km ?最 高 的 人 将 有 多 高 ? 











。 练习 5.3 
Weibull 分 布 是 对 在 失败 分 析 中 出 现 的 指数 分 布 的 一 般 化 (参见 http://wikipedia.org/wiki/ 
Weibull_distribution) 。Weibull 分 布 的 CDF 为 : 


CDF (x) = 1 — e- tN 
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你 能 否 找到 一 种 转换 方法 ， 使 Weibull 分 布 的 图 形 近似 直线 ? 这 条 线 的 斜率 和 截 距 各 有 什 


么 含义 ? 





请 使 用 random.weibullvariate 从 一 个 Weibull 分 布 中 生成 一 个 样本 ,测试 你 提出 的 转换 
方法 。 


。 练习 5.4 
如 果 样 本 量 n 很 小 ， 我 们 认为 经 验 分 布 不 能 精确 符合 一 个 分 析 分 布 。 要 衡量 样本 与 模型 
的 拟 合 度 ， 一 个 方法 是 从 分 析 分 布 生成 一 个 样本 ,检验 所 生成 样本 与 数据 的 匹配 程度 。 


例如 ， 在 5.1 节 中 ， 我 们 绘制 了 出 生 时 间 到 达 间 隔 的 分 布 ， 结 果 大 致 符合 指数 分 布 。 但 是 
这 个 分 布 的 基础 数据 只 有 44 个 。 为 了 判断 这 些 数 据 是 否 来 自 指数 分 布 ， 请 以 数据 集 的 均 
值 〈 即 出 生 时 间 间 隔 为 33 分 钟 ) 为 均值 生成 指数 分 布 ， 从 中 得 到 44 个 值 。 











请 绘制 这 些 随机 数 的 分 布 ， 并 与 实际 分 布 进行 比较 。 你 可 以 使 用 random.expovariate 生成 


这 些 值 。 


。 练习 5.5 
本 书 代码 库 中 有 一 组 名 为 mystery0.dat、mystery1.dat 等 的 数据 文件 。 每 个 数据 文件 都 包含 
由 一 个 分 析 分 布 生成 的 一 列 随机 数 。 








代码 库 中 还 有 一 个 test_models.py， 这 个 脚本 从 文件 读 取 数 据 ， 经 过 各 种 转换 ， 绘 制 CDF。 
你 可 以 用 如 下 命令 运行 这 个 脚本 : 





$ python test models.py mystery0.dat 


根据 这 些 图 形 ， 你 应 该 可 以 推断 出 哪 种 分 布 生成 了 哪个 文件 。 如 果 觉 得 有 困难 ， 你 可 以 查 
看 mystery.py， 这 个 文件 包含 生成 数据 文件 的 代码 。 




















。 练习 5.6 
财富 和 收入 分 布 有 时 使 用 对 数 正 态 分 布 和 Pareto 分 布 模型 。 要 判断 哪 种 模型 更 好 ， 我 们 来 
看 一 些 数 据 。 


当前 人 口 调查 (Current Population Survey，CPS) 是 美国 劳工 统计 局 (Bureau of Labor 
Statistics) 和 美国 人 口 调查 局 联合 进行 的 收入 和 相关 变量 调查 。2013 年 的 数据 发 布 在 
http://www.census.gov/hhes/www/cpstables/032013/hhinc/toc.htm 上 。 我 下 载 了 包含 家 庭 收 入 
信息 的 hinc06.xls， 并 将 这 个 Excel 文件 转换 为 CSV 文件 hinc06.csv， 这 个 文件 位 于 本 书 的 
代码 库 中 。 代 码 库 还 包含 读 取 这 个 CSV 文件 的 hinc.py。 


请 从 这 个 数据 集中 得 出 收入 分 布 。 本 章 介绍 的 分 析 分 布 能 很 好 地 描述 这 些 数据 吗 ? 参考 答 
案 位 于 hinc_soln.py 中 。 


























5.9 术语 


经 验 分 布 (empirical distribution) 


一 个 样本 中 值 的 分 布 。 





分 析 分 布 (analytic distribution ) 


CDF 为 分 析 函 数 的 分 布 。 


模型 (model) 





一 种 实用 的 简化 。 分 析 分 布 通常 是 复杂 经 验 分 布 的 良好 模型 。 


到 达 间 隔 (interarrival time) 


两 个 事件 发 生 的 时 间 间 隔 。 


CDF 补 函数 (complementary CDF) 





一 个 函数 ， 将 值 x 映射 到 超过 x 的 值 所 占 的 比例 ， 即 1-CDFQx)。 











标准 正 态 分 布 (standard normal distribution) 
均值 为 0 且 均 方差 为 1 的 正 态 分 布 。 


正 态 概率 图 (normal probability plot) 
将 样本 值 与 标准 正 态 分 布 中 的 随机 值 进行 对 比 的 图 





形 。 





分 布 建 模 
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本 章 代码 位 于 density.py 中 。 前 言 介 绍 了 如 何 下 载 和 使 用 本 书 代码 。 


6.1 PDF 


CDF 的 导数 称 为 概率 密度 函数 (probability density function，PDF)。 人 例如， 指数 分 布 的 
PDF 公式 如 下 : 


PDFowo (x) = Me- 


正 态 分 布 的 PDF 公式 为 : 


PDF normal (x) ;7d 








1 1 
| 
对 于 特定 值 x， 人 们 通常 不 会 计算 其 PDF。 计算 PDF 得 到 的 不 是 概率 ， 而 是 概率 密度 
(density ) 。 


在 物理 学 上 ， 密 度 是 单位 体积 的 质量 。 要 计算 质量 ， 必 须 用 密度 乘 以 体积 。 如 有 果 密 度 不 是 
常量 ， 那 么 需要 将 其 与 体积 进行 积 























类 似 地 ， 概 率 密度 度量 单位 x 的 概率 。 为 了 计算 概率 ， 必 须 在 x 的 取 值 范围 上 进行 积 4 





thinkstats2 提供 一 个 表示 概率 密度 函数 的 Pdf 类 。 每 个 Pdf 对 象 都 提供 如 下 方法 。 
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。 Density 


参数 为 值 x， 返 回 当前 分 布 在 x 上 的 密度 。 








。 Render 
对 一 组 离散 值 计算 密度 ， 返 回 一 个 数 对 序列 ， 数 对 中 包含 值 xs 及 
按 xs 值 排 序 。 

















蕴 
党 
障 
洱 
了 H 
这 














。 MakepPmf 


对 一 组 离散 值 计算 pensity， 返 回 标准 化 的 Pmf， 结 果 近 似 Pdf。 





。 GetLinspace 


返回 Render 和 MakePmf 默认 使 用 的 点 集 。 





Pdf 是 一 个 抽象 的 父 类 ， 不 能 实例 化 。 也 就 是 说 ， 你 不 能 创建 一 个 Pdf 对 象 ， 而 应 该 定 
一 个 继承 Pdf 的 子 类 ， 并 提供 Density 和 GetLinspace 的 定义 。Pdf 提供 了 Render 和 
MakepPmf 的 定义 。 











例如 ，thinkstats2 提供 一 个 NormalPdf 类 ， 可 用 于 计算 正 态 密度 函数 。 





class NormaLPdf(Pdf) : 


def _ init (seLf，mu=0，sigma=1，LabeL=' '): 
seLf.mu = mu 
seLf .sigma 
self.label 


sigma 
label 


def Density(self, xs): 
return scipy.stats.norm.pdf(xs, self.mu, self.sigma) 


def GetLinspace(self): 
low, high = self.mu-3*self.sigma, self.mu+3*self.sigma 
return np.linspace(low, high, 101) 


NormalPdf 对 象 包含 参数 mu 和 sigma。Density 方法 使 用 scipy.stats.nornm 对 象 表示 正 态 分 
布 。scipy.stats.norn 提供 很 多 功能 ， 包 括 cdf 和 pdf 方法 (参见 5.2 节 )。 





下 面 一 段 代码 以 BRFSS (参见 5.4 节 ) 的 成 年 女性 身高 (单位 为 厘米 ) 的 均值 和 方差 为 参 
数 ， 创 建 一 个 NormalPdf 对 象 ， 然 后 计算 这 个 分 布 在 距 均值 一 个 标准 差 处 的 密度 。 











>>> mean，Var = 163, 52.8 

>>> std = math.sqrt(var) 

>>> pdf = thinkstats2.Normalpdf(mean, std) 
>>> pdf.Density(mean + std) 

0.0333001 


3? 

















代码 执行 结果 为 0.03， 单 位 为 每 厘米 的 概率 值 。 需 要 再 次 声明 ， 概 率 密度 自身 并 没有 太 多 
含义 。 但 是 ， 如 果 绘 制 Pdf， 我 们 就 能 看 出 这 个 分 布 的 形状 。 














>>> thinkpLot.Pdf(pdf，LabeL='normaL ') 
>>> thinkplot.Show() 


thinkplot.Pdf 绘制 的 Pdf 是 一 个 平 请 函数 ， 而 thinkplot.Pmf 绘制 的 Pmf 是 阶梯 函数 。 图 


6-1 展示 了 thinkplot.Pdf 的 绘制 结果 ， 以 及 从 一 个 样本 估计 得 到 的 PDF， 下 一 节 将 讨论 如 
何 计算 。 
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6-1: 对 美国 成 年 女性 身高 进行 建 模 得 到 的 正 态 PDF， 以 及 样本 量 n 为 500 的 核 密度 估计 
你 可 以 使 用 MakePmf 模拟 Pdf。 
>>> pmf = pdf.MakePmf() 


默认 情况 下 ，MakePmf 得 到 的 Pmf 对 象 包含 101 个 点 ， 均 匀 分 布 在 从 mu - 3*sigma 到 mu + 
3*sigma 的 范围 内 。MakePmf 和 Render 也 可 以 使 用 关键 字 参 数 Low、high 以 及 点 数 n。 


6.2 ” 核 密度 估计 


核 密度 估计 (kernel density estimation，KDE) 是 一 种 算法 ， 可 以 对 一 个 样本 寻找 符合 样本 
数据 的 适当 平 谓 的 PDF。 你 可 以 从 http://en.wikipedia.org/wiki/Kernel_density_estimation 了 
解 到 更 多 的 信息 。 





scipy 提供 了 一 种 KDE 实现 ，thinkstats2 中 的 EstimatedPdf 类 使 用 了 scipy 的 KDE 





class Estimatedpdf(Pdf): 


def _ init (self, sample): 
self.kde = scipy.stats.gaussian_ kde(sample) 


def Density(self, xs): 
return self.kde.evaluate(xs) 





方法 _init__ 以 一 个 样本 为 参数 ， 计 算 其 核 密度 估计 ， 得 到 一 个 gaussian_kde 对 象 ， 这 
个 对 象 提 供 evaluate 方法 。 














方法 Density 可 以 以 值 或 序列 为 参数 ， 调 用 gaussian_kde.evaluate 方 法， 返回 得 到 的 密 
度 。 类 gaussian_kde 使 用 了 一 个 基于 高 斯 分 布 的 过 滤器 ， 使 KDE 变 得 平滑 ， 因 此 类 名 中 


用 了 Gaussian 这 个 词 。 





下 面 一 段 代码 展示 了 如 何 从 一 个 正 态 分 布 生成 一 个 样本 ， 然 后 创建 一 个 符合 该 样本 的 
EstimatedPdf。 





>>> sample = [random.gauss(mean, std) for i in range(500)] 
>>> sample_pdf = thinkstats2.Estimatedpdf(sample) 
>>> thinkplot.Pdf(pdf, label='sample KDE') 


代码 中 的 sample 是 一 个 列表 ， 包 含 500 个 随机 身高 。sample_pdf 是 一 个 Pdf 对 象 ， 包 含 该 
样本 的 估计 KDE。pmf 是 一 个 Pmf 对 象 ， 通 过 计算 在 一 个 等 距 序列 上 的 密度 来 模拟 Pdf。 




















图 6-1 展示 了 正 态 密度 函数 ， 以 及 基于 500 个 随机 身高 样本 的 KDE。 估 计 结 果 与 原始 分 布 
非常 吻合 。 

KDE 估计 密度 函数 可 用 于 如 下 用 途 。 

。 可 视 化 

在 项 目的 探索 阶段 ， 展 现 分 布 的 最 佳 方法 通常 是 CDF。 在 观察 CDF 之 后 ， 你 可 以 判断 


估计 PDF 是 否 为 该 分 布 的 适宜 模型 。 如 果 PDF 是 适宜 模型 ， 那 么 就 可 以 更 好 地 向 不 熟 
悉 CDF 的 受众 展现 这 个 分 布 。 








。 插值 
通过 估计 PDF， 我 们 可 以 从 样本 得 到 总 体 模型 。 如 果 你 相信 总 体 分 布 是 平滑 的 ， 那 么 
就 可 以 使 用 KDE 为 样本 中 不 存在 的 值 插入 相应 的 密度 。 








。 模拟 
模拟 通常 是 基于 一 个 样本 分 布 。 如 果 样 本 规模 较 小 ， 那 么 我 们 或 许可 以 使 用 KDE， 对 
样本 分 布 进行 平滑 处 理 ， 使 得 模拟 可 以 探索 可 能 性 更 高 的 结果 ， 而 不 是 复制 所 观察 到 的 
数据 。 


























6.3 ”分布 框架 


到 目前 为 止 ， 我们 已 经 学 习 了 PMF、CDF 和 PDF。 让 我 们 花 点 时 间 回 顾 一 下 。 图 6-2 展示 
了 这 些 函 数 之 间 的 关系 。 








非 索 积 














6-2: 分 布 函 数 的 关系 框架 


我 们 最 先 接触 的 是 PMF。PMF 代表 一 组 离散 值 的 概率 。 要 从 PMF 得 到 CDF， 需 要 把 概率 
值 累 加 得 到 累积 概率 。 反 过 来 ， 要 从 CDF 得 到 PMF， 需 要 计算 累积 概率 之 间 的 差 值 。 我 
们 将 在 接 下 来 的 几 节 讨论 这 些 计算 的 具体 实现 。 

















PDF 是 连续 型 CDF 的 导数 ， 或 者 说 ，CDF 是 PDF 的 积分 。 请 记 住 : PDF 将 值 映射 到 概率 
密度 ， 要 得 到 概率 ， 必 须 进行 积分 运算 。 

要 从 离散 型 分 布 得 到 连续 型 分 布 ， 可 以 进行 各 种 平 请 处 理 。 一 种 平滑 处 理 方法 是 ， 假 设 数 
据 来 自 一 个 连续 的 分 析 分 布 (如 指数 分 布 或 正 态 分 布 )， 然 后 估计 这 个 分 布 的 参数 。 另 一 
种 方法 是 核 密度 估计 。 


平滑 处 理 的 逆向 操作 是 离散 化 (discretizing)， 或 称 为 量化 (quantizing)。 如 果 在 离散 点 上 
计算 PDF， 就 可 以 生成 近似 这 个 PDF 的 PMF。 使 用 数值 积分 可 以 获得 更 好 的 近似 。 






































要 明确 区 分 连续 型 和 离散 型 CDF， 也 许 将 离散 型 CDF 称 为 “累积 质量 函数 ”(cumulative 
mass function) 更 合适 ， 但 据 我 所 知 没有 人 使 用 这 个 词 。 





6.4 ” Hist 实现 


现在 你 应 该 已 经 知道 如 何 使 用 thinkstats2 中 提供 的 各 种 基本 类 型 (Hist、Pmf、Cdf 和 
Pdf) 了 。 接 下 来 的 几 节 将 具体 介绍 这 些 基 本 类 型 的 实现 。 这 些 内 容 也 许可 以 帮助 你 更 高 效 
地 使 用 这 些 类 ， 但 并 不 是 必须 了 解 的 。 


Hist 和 Pmf 继承 了 一 个 父 类 _Dictwrapper。 这 个 类 名 开头 的 下 划 线 表明 这 是 一 个 “内 部 ” 
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类 ， 即 这 个 类 不 应 该 在 其 他 模块 代码 中 使 用 。_Dictnrapper 的 名 字 说 明了 这 个 类 的 功能 ， 
它 是 一 个 字典 封装 类 ， 其 主要 属性 是 将 值 映射 到 相关 频次 的 字典 d。 


字典 d 处 理 的 值 可 以 是 任何 能 够 进行 散 列 计算 的 数据 类 型 ， 值 对 应 的 频次 应 该 为 整数 ， 但 
可 以 为 任何 数值 类 型 。 
































_Dictwrapper 提供 适用 于 Hist 和 Pmf 的 方法 ， 包 括 _init _、Values、Items 和 Render。 
_DictWrapper 还 提供 修饰 符 方法 Set、Incr、Mult 和 Remove。 这 些 方法 都 是 使 用 字典 运算 
实现 的 。 示 例如 下 

# class_DictWrapper 


def Incr(self, x, term=1): 
self.d[x] = self.d.get(x, 0) + term 


def Mult(self, x, factor): 
self.d[x] = self.d.get(x, 0) * factor 


def Remove(self, x): 
del self.d[x] 


Hist 还 提供 方法 Freq， 用 于 查找 一 个 给 定 值 的 频次 。 


Hist 的 操作 符 和 方法 都 是 基于 字典 类 的 ， 因 此 这 些 方法 都 是 常数 时 间 操 作 ， 也 就 是 说 ， 这 
些 方法 的 运行 时 间 不 会 随 着 Hist 对 象 变 大 而 增加 。 





6.5 Pmf 实 现 


Pmf 和 Hist 基本 类 似 ， 唯 一 的 区 别 是 Pmf 将 值 映 射 到 浮 点 数 的 概率 值 ， 而 不 是 整数 的 频 
次 。 如 果 一 个 Pmf 的 概率 总 和 为 1， 那么 这 个 Pmf 就 是 正 态 化 的 。 



































Pmf 提供 一 个 方法 Normalize， 这 个 方法 计算 所 有 概率 的 总 和 ， 并 将 所 有 概率 除 以 一 个 
因子 。 





# class Pmf 


def Normalize(self, fraction=1.0): 
total = self.Total() 
if total == 0.0: 
raise ValueError('Total probability is zero.') 


factor = float(fraction) / total 
for x in self.d: 


self.d[x] *= factor 


return total 























参数 fraction 决定 了 正 态 化 之 后 的 概率 总 和 ， 这 个 参数 的 默认 值 为 1。 如 果 Pmf 中 的 概率 
总 和 为 0， 则 无 法 进行 正 态 化 ， 因 此 这 种 情况 下 Normalize 方法 抛 出 一 个 ValueError。 














Hist 和 Pmf 的 构造 函数 相同 ， 参 数 都 可 以 是 和 ct 对 象 、Hist 对 象 、Pmf 或 Cdf 对 象 、 
pandas 的 Series 对 象 、 一 列 数值 - 频次 对 或 一 列 数 值 。 





























如 果实 例 化 一 个 Pmf， 得 到 的 结果 将 是 正 态 化 的 。 如 果实 例 化 一 个 Hist， 得 到 的 结果 不 是 
正 态 化 的 。 要 构建 一 个 非 正 态 化 的 Pmf， 可 以 先 创建 一 个 空 的 Pmf， 然 后 进行 修改 。Pmf 
修饰 符 不 会 对 Pmf 重新 进行 正 态 化 。 


6.6 ”Cdf 实 现 


CDF 将 值 映射 到 累积 概率 ， 因 此 我 原本 可 以 用 _Dictwrapper 实现 Cdf。 但 是 CDF 中 的 值 
是 按 序 排列 的 ， 而 -Dictwrapper 中 的 值 是 乱 序 的 。 而 且 ， 人 们 经 常 需要 计算 CDF 反 函 数 ， 
也 就 是 说 ， 从 累积 概率 映射 到 值 。 因 此 ， 我 选择 使 用 两 个 排序 列表 来 实现 Cdf， 以 便 使 用 
二 分 法 检索 ， 在 对 数 时 间 内 进行 正 向 或 反 向 查找 。 


Cdf 构造 函数 的 参数 可 以 是 一 个 值 序列 、pandas 的 Series 对 象 、 将 值 映射 到 概率 的 字典 、 
一 列 数 值 - 频次 对 、Hist 对 象 、Pmf 对 象 或 Cdf 对 象 。 如 果 向 Cdf 构造 函数 传人 两 个 参数 ， 
那么 构造 函数 会 将 这 两 个 参数 当 作 一 个 已 排序 的 值 序列 及 其 对 应 的 累积 函数 序列 。 









































给 定 一 个 序列 、pandas Series 对 象 或 字典 ，Cdf 构造 函数 会 创建 一 个 Hist 对 象 ， 然 后 使 用 
这 个 Hist 对 象 对 属性 进行 初始 化 。 
self.xs, freqs = zip(*sorted(dw.Items())) 


self.ps = np.cumsum(freqs, dtype=np.float) 
self.ps /= self.ps[-1] 





xs 是 按 序 排列 的 值 列表 ，freqs 是 对 应 的 频次 列表 。np.cumsum 计算 这 些 频次 的 累积 总 和 。 
将 所 有 的 累积 频次 除 以 频次 总 和 就 得 到 了 累积 概率 。 对 于 mn 个 值 ， 构 造 一 个 Cdf 所 需 的 时 
间 与 nlogn 成 正比 。 














对 于 一 个 参数 值 ，Prob 方法 返回 其 累积 概率 。 具 体 实现 如 下 : 














# class Cdf 
def Prob(self, x): 
if x < self.xs[0]: 
return 0.0 
index = bisect.bisect(self.xs, x) 
p = self.ps[index - 1] 
return p 





bisect 模块 实现 了 一 种 二 分 法 检索 。 对 于 传人 的 累积 概率 参数 ，Cdf 的 Value 方法 返回 其 
对 应 的 值 ， 具 体 实现 如 下 : 





# class Cdf 
def Value(self, p): 
if p<0orp>1: 
raise ValueError('p must be ;in range [0, 1]') 


index = bisect.bisect left(self.ps, p) 
return self.xs[index] 


给 定 一 个 Cdf， 我 们 可 以 计算 相 邻 累积 概率 的 差 值 ， 从 而 得 到 Pmf。 如 果 调 用 Cdf 构造 函 
数 并 传 入 一 个 Pmf， 构 造 函 数 会 调用 Cdf .Items 方法 计算 相 邻 累积 概率 的 差 值 。 


# class Cdf 
def Items(self): 
a = self.ps 
b = np.roll(a, 1) 
b[0] = 0 
return zip(self.xs, a-b) 


























np.roll 将 数组 a 中 的 元 素 问 右 移 动 一 个 位 置 ， 最 后 一 个 元 素 “ 深 动 ”(roll) 到 数组 的 起 
始 位 置 。 我 们 将 b 的 第 一 个 元 素 替 换 为 0， 然 后 计算 差 值 a-b， 得 到 的 结果 是 包含 概率 数值 
的 一 个 NumPy 数组 。 

















Cdf 提供 方法 Shift 和 Scale， 对 Cdf 中 的 值 进行 修改 ， 但 概率 应 视 为 不 变 。 


6.7 和 挎 


不 管 在 什么 时 候 ， 只 要 将 一 个 样本 归结 为 一 个 数字 ， 这 个 数字 就 是 一 个 统计 量 。 到 目前 为 
止 ， 我 们 接触 到 的 统计 量 包 括 均值 、 方 差 、 中 位 数 和 四 分 位 距 等 。 














原始 矩 (raw moment) 也 是 一 个 统计 量 。 对 于 一 组 值 为 x 的 样本 ,第 个 原始 矩 计算 公 
式 为 : 





Python 实现 如 下 : 


def RawMoment(xs, Kk): 
return sum(x**k for x in xs) / len(xs) 














TI 


当 =1 时， 原始 矩 为 样本 的 均 人 
些 计算 中 。 


中 心 矩 (central moment) 的 用 途 较 多 。 第 大 个 中 心 矩 的 计算 公式 为 : 


ee ek 
mx = i X) 


x。 其 余 的 原始 矩 本 身 并 不 具有 任何 意义 ,但 可 以 用 在 一 

















Python 实现 如 下 : 


def CentraLMoment(xs，k) : 
mean = RawMoment(xs，1) 
return sum((x - mean)**k for x in xs) / Len(xs) 




















当 他 2 时 ， 计 算 结 果 是 第 二 中 心 逢 ， 你 可 能 会 发 现 这 其 实 就 是 方差 。 这 些 统计 量 为 什么 称 
为 矩 ， 方 差 的 定义 给 了 我 们 一 些 提示 。 如 果 我 们 在 直 尺 的 不 同位 置地 附加 一 个 重 物 ， 然 后 
将 直 尺 围绕 这 些 值 的 均值 旋转 ， 旋 转 重 物 的 惯性 力矩 (moment of inertia) 就 是 这 些 值 的 方 
差 。 如 果 不 熟悉 惯性 力矩 的 概念 ， 可 以 参考 http:Wen.wikipedia.org/wiki/Moment_of inertia。 

















在 使 用 基于 甜 的 统计 量 时 ， 很 重要 的 一 点 是 考虑 统计 量 的 单位 。 例 如 ， 如 果 值 x 的 单位 是 
厘米 ， 那 么 第 一 原始 矩 的 单位 也 是 厘米 ， 但 第 二 原始 矩 的 单位 是 平方 厘米 ， 第 三 原始 矩 的 
单位 是 立方 厘米 ， 以 此 类 推 。 

由 于 这 些 不 同 寻常 的 单位 ， 矩 本 身 的 含义 很 难 解释 。 正 因为 如 此 ， 人 们 通常 会 使 用 标准 差 
而 不 是 第 二 中 心 逢 。 标 准 差 是 方差 的 平方 根 ， 使 用 的 单位 与 x; 相同 。 


6.8 偏 度 


偏 度 (skewness) 是 描述 分 布 形状 的 一 个 属性 。 如 果 分 布 是 以 集中 趋势 为 中 心 对 称 的 ， 那 
么 这 个 分 布 就 非 偏 斜 的 (unskewed)。 如 果 分 布 中 的 值 向 右 延 伸 更 多 ， 那 么 这 个 分 布 就 
是 “ 右 偏 ”(right skewed) 的 ， 如 果 值 向 左 延 伸 更 多 ， 那 么 这 个 分 布 就 是 “ 左 偏 ”(left 
skewed) 的 。 
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“ 偏 斜 ”(skewed) 并 不 是 通常 所 说 “有 偏 ”(biased) 的 含义 。 偏 度 只 是 描述 了 分 布 的 形 
状 ， 和 采样 过 程 是 否 有 偏 并 无 关系 。 

人 们 通常 使 用 几 个 统计 量 对 分 布 的 偏 度 进行 量化 。 对 给 定 的 值 序列 x,， 样 本 偏 度 (sample 
skewness) gi 的 计算 方法 如 下 : 











def StandardizedMoment(xs, k): 
var = CentralMoment(xs, 2) 
std = math.sqrt(var) 
return CentralMoment(xs, k) / std**k 


def Skewness(xs): 
return StandardizedMoment(xs, 3) 





gi 是 第 三 标准 化 矩 (standardized moment) ， 也 就 是 说 这 个 值 经 过 了 正 态 化 ， 没 有 单位 。 


偏 度 为 负 值 代 表 一 个 分 布 左 偏 ， 偏 度 为 正 值 代表 一 个 分 布 右 人 篇。8g, 的 大 小 代表 偏 斜 的 程 
度 , 但 是 g 的 值 本 身 很 难 解读 。 









































在 实际 应 用 中 ， 计 算 样 本 偏 度 通常 并 非 好 主意 。 分 布 中 的 任何 离 群 值 都 会 对 g, 产生 不 同 程 
度 的 影响 。 

衡量 分 布 对 称 性 的 另 一 个 方法 是 检查 均值 和 中 位 数 的 关系 。 极 端 值 对 均值 的 影响 比 对 中 位 
数 影响 更 大 ， 因 此 在 一 个 左 偏 分 布 中 ， 均 值 会 比 中 位 数 小 ; 在 右 偏 分 布 中 ， 均 值 则 比 中 位 
数 大 。 

Pearson 中 位 数 偏 度 系数 (Pearson’s median skewness coefficient) 是 基于 样本 均值 和 中 位 数 
差 的 一 种 偏 度 度量 。 


























Bp = 3(x 一 m)/S 














其 中 x 是 样本 均值 ，m 是 中 位 数 ，S 是 标准 差 。Python 实现 如 下 : 














def Median(xs): 
cdf = thinkstats2.MakeCdfFromList(xs) 
return cdf.Value(0.5) 


def PearsonMedianSkewness(xs): 
median = Median(xs) 
mean = RawMoment(xs, 1) 
var = CentralMoment(xs, 2) 
std = math.sqrt(var) 
gp = 3 * (mean - median) / std 
return gp 


这 个 统计 量 是 稳健 的 (robust)， 即 受 离 群 值 的 影响 较 小 。 


举 个 例子 ， 让 我 们 看 看 全 国家 庭 增长 调查 妊娠 数据 中 的 新 生 儿 体重 的 偏 度 。 估 计 和 绘制 
PDF 的 代码 如 下 : 








live, firsts, others = first.MakeFrames() 
data = live.totalwgt_lb.dropna() 

pdf = thinkstats2.Estimatedpdf(data) 
thinkplot.Pdf(pdf, label='birth weight') 




















图 6-3 展示 了 代码 的 运行 结果 。 图 中 左 尾 看 起 来 比 右 尾 长 ， 因 此 我 们 猜测 这 个 分 布 是 左 
偏 的 。 其 均值 7.27 磅 比 中 位 数 7.38 磅 略 小 ， 与 左 偏 分 布 的 特征 一 致 。 样 本 偏 度 为 -0.59， 
Pearson 中 位 数 偏 度 系数 为 -0.23， 都 是 负 值 。 
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图 6-3: 全 国家 庭 增长 调查 新 生 儿 体重 数据 的 估计 PDF 


现在 我 们 将 这 个 分 布 与 BRFSS 成 年 人 体重 分 布 进行 比较 。 估 计 和 绘制 BRFSS 成 年 人 体重 
PDF 的 代码 如 下 : 

df = brfss.ReadBrfss(nrows=None) 

data = df.wtkg2.dropna() 


pdf = thinkstats2.Estimatedpdf(data) 
thinkplot.Pdf(pdf, label='adult weight') 

















图 6-4 展示 了 这 段 代 码 的 运行 结果 。 图 中 的 分 布 看 起 来 向 右 偏 斜 。 其 均值 79.0 确实 比 中 位 
数 77.3 大 。 样 本 偏 度 为 1.1，Pearson 中 位 数 偏 度 系数 为 0.26。 
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6-4: BRFSS 成 年 人 体重 数据 的 估计 PDF 














偏 度 系数 为 正 或 为 负 说 明了 分 布 左 偏 还 是 右 偏 ， 但 除 此 之 外 ， 我 们 很 难 对 偏 度 系数 作出 更 
多 解释 。 样 本 偏 度 的 稳健 性 较 差 ， 即 更 容易 受到 离 群 值 的 影响 ， 因 此 在 应 用 于 偏 斜 分 布 时 
可 靠 性 更 低 ， 而 这 恰恰 是 人 们 最 关心 样本 偏 度 的 时 候 。 
Pearson 中 位 数 偏 度 系数 基于 计算 所 得 的 均值 和 方差 ， 因 此 也 会 受到 离 群 值 影响 ， 但 这 个 
系数 不 依赖 第 三 矩 ， 因 此 稳健 性 稍 好 一 些 。 


6.9 练习 


本 章 练习 的 参考 答案 位 于 chap06soln.py 中 。 




















。 练习 6.1 
众所周知 ， 收 入 分 布 向 右 偏 侨 。 在 这 个 练习 中 ， 我 们 将 度量 收入 分 布 的 偏 度 有 多 大 。 


当前 人 口 调查 是 美国 劳工 统计 局 和 美国 人 口 调查 局 联合 进行 的 一 项 调查 ， 用 于 研究 收 
入 及 其 相关 变量 。 这 项 调查 2013 年 收集 的 数据 位 于 http://www.census.gov/hhes/www/ 
cpstables/032013/hhinc/toc.htm。 我 下 载 了 7 包含 家 庭 收 入 信息 的 hinc06.xls 文件 ， 并 将 其 转 
换 为 CSV 文件 hinc06.csv， 放 于 本 书 的 代码 库 中 。 代 码 库 还 包含 一 个 hinc2.py， 用 于 读 取 
hinc06.csv， 并 对 数据 进行 转换 。 


这 个 数据 集 包含 一 系列 的 收入 范围 ， 以 及 位 于 各 范围 中 的 调查 参与 者 的 人 数 。 最 低 收入 范 
围 中 的 调查 参与 者 家 庭 年 收入 “ 低 于 5000 美元 ”。 最 高 收入 范围 中 的 参与 者 家 庭 年 收入 为 
“等 于 或 超过 250 000 美元 ”。 

































































为 了 估计 这 些 数据 的 均值 以 及 其 他 统计 量 ， 我 们 必须 对 收入 上 限 、 下 限 ， 以 及 数据 在 各 个 
收入 范围 内 的 分 布 进行 一 些 假设 。hinc2.py 中 的 InterpolateSsample 方法 提供 了 对 这 些 数据 
建 模 的 一 种 方法 。InterpolateSample 的 一 个 参数 是 DataFrame 对 象 ， 这 个 DataFrame 对 象 
中 的 income 列 包 含 每 个 收入 范围 的 上 限 ，freq 列 包 含 每 个 收入 范围 内 的 调查 参与 者 人 数 。 





























InterpolateSample 的 另 一 个 参数 Log_upper 是 对 最 高 收入 范围 的 一 个 设 定 上 限 ， 表 示 为 
收入 值 的 1og16 美元 。 默 认 值 log_upper=6.9 代表 对 调查 参与 者 的 最 高 收入 设 定 的 上 限 为 
105， 即 100 万 美元 。 


























InterpolateSample 生成 一 个 伪 样 本 ， 也 就 是 说 ， 产 生 的 这 个 家 庭 收 入 样本 中 ， 各 个 收入 范 
用 的 调查 参与 者 数量 与 实际 数据 相同 。InterpolateSample 假定 每 个 范围 内 的 收入 的 log10 





















































请 计算 Interpolatesample 所 生成 样本 的 中 位 数 、 均 值 、 偏 度 和 Pearson 偏 度 系数 。 纳 税收 
入 低 于 均值 的 家 庭 所 占 比例 为 多 少 ? 这 个 结果 与 设 定 的 收入 上 限 有 怎样 的 依赖 关系 ? 

















6.10 术语 


。 概率 密度 函数 (probability density function，PDF) 
连续 CDF 的 导数 。 这 个 函数 将 值 映射 到 其 概率 密度 。 





























。 概率 密度 (probability density) 
一 个 数值 ， 可 以 在 一 个 取 值 范围 上 进行 积分 得 到 一 个 概率 。 如 果 值 的 单位 为 厘米 ， 那 么 
概率 密度 的 单位 为 每 厘米 的 概率 。 

















密度 


。 核 密 度 估计 (kernel density estimation，KDE) 
于 一 个 样本 对 PDF 进行 估计 的 算法 。 


。 离散 化 (discretize) 
用 离散 函数 对 一 个 连续 函数 或 分 布 进行 模拟 。 离 散 化 的 逆 操 作 是 平滑 化 。 





有 淋 3 





。 原始 和 矩 (raw moment) 


一 个 统计 量 ， 基 于 数据 乘 方 之 和 。 





。 中 心 矩 (central moment) 


一 个 统计 量 ， 基 于 数据 与 均值 差 的 乘 方 之 和 。 








。 标准 化 矩 (standardized moment) 
算 的 一 个 比率 ， 没 有 单位 。 








。 偏 度 (skewness) 
度量 分 布 的 对 称 性 。 


。 样本 偏 度 (sample skewness) 
一 个 基于 和 矩 的 统计 量 ， 用 于 量化 分 布 的 储 度 。 


。 Pearson 中 位 数 偏 度 系 数 (Pearson’s median skewness coefficient) 
用 于 量化 分 布 偏 度 的 一 个 统计 量 ， 基 于 中 位 数 、 均 值 和 标准 差 。 


。 稳健 (robust) 
如 果 一 个 统计 量 受 离 群 值 的 影响 相对 较 小 ， 那 么 这 个 统计 量 就 是 稳健 的 。 
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变量 之 间 的 关系 





到 目前 为 止 ， 我 们 每 次 只 研究 一 个 变量 。 本 章 ， 我 们 将 研究 变量 之 间 的 关系 。 如 果 能 够 从 
一 个 变量 的 信息 中 得 到 另 一 个 变量 的 信息 ， 那 么 这 两 个 变量 就 是 相关 的 。 例 如 ， 身 高 和 体 
重 是 相关 的 ， 个 子 高 的 人 一 般 体重 也 会 比较 重 。 当 然 ， 身 高 和 体重 的 关系 并 不 是 绝对 的 ， 
也 有 矮 个 的 胖子 和 高 个 的 瘦 子 。 但 是 在 猜测 一 个 人 的 体重 时 ， 如 有 果 已 知 身高 的 话 ， 进 行 推 
测 会 更 加 准确 。 


本 章 代码 位 于 scatter.py 中 。 前 言 介绍 了 如 何 下 载 和 使 用 本 书 代码 。 


7.1 散 点 图 


研究 两 个 变量 之 间 关 系 的 最 简单 方法 是 散 点 图 (scatter plot) 。 但 好 的 散 点 图 的 绘制 并 不 简 
单 。 作 为 示例 ， 我 将 绘制 BRFSS (参见 5.4 节 ) 调查 参与 者 的 体重 与 身高 关系 的 散 点 图 。 


如 下 代码 可 读 取 数 据 文 件 ， 获 得 身高 和 体重 数据 。 





























df = brfss.ReadBrfss(nrows=None) 
sample = thinkstats2.SampleRows(df, 5000) 
heights, weights = sample.htm3, sample.wtkg2 


SampleRows 选 出 这 些 数 据 的 一 个 随机 子 集 。 
def SampleRows(df, nrows, replace=False): 
indices = np.random.choice(df.index, nrows, replace=replace) 


sample = df.Loc[indices] 
return sample 
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df 是 DataFrame 对 象 ，nrows 是 需要 选取 的 行 数 ，replace 是 一 个 布尔 值 ， 指 定 采样 过 程 是 
否 放 回 ， 也 就 是 说 ， 同 一 列 是 否 可 以 被 多 次 选中 。 





thinkplot 提供 Scatter 方法 绘制 散 点 图 。 











thinkplot.Scatter(heights, weights) 

thinkplot.Show(xlabel='Height (cm) ' ， 
ylabel='Weight (kg) ' ， 
axis=[140, 210, 20, 200]) 





绘制 结果 展示 了 身高 和 体重 的 关系 形状 ， 见 图 7-1 ( 左 )。 正 如 我 们 预期 的 那样 ， 个 子 高 的 
人 体重 更 重 。 
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图 7-1: BRFSS 调查 参与 者 的 体重 与 身高 关系 散 点 图 ， 未 拌 动 ( 左 )， 拌 动 ( 右 ) 


但 这 个 绘制 结果 的 展现 效果 并 不 理想 ， 因 为 数据 都 成 列 聚集 。 之 所 以 产生 这 个 现象 ， 是 因 
为 身高 数据 四 舍 五 入 到 相 邻 的 英寸 ， 转 换 为 厘米 后 ， 再 次 四 舍 五 和 人。 在 这 个 转换 过 程 中 ， 
丢失 了 一 些 信息 。 


我 们 无 法 找 回 已 丢失 的 信息 ， 但 可 以 将 数据 进行 拉动 〈jittering)， 即 加 入 随机 噪音 弥补 四 
舍 五 人 的 效果 ， 以 减少 丢失 信息 对 散 点 图 的 影响 。 这 些 测 量 数据 都 四 舍 五 人 到 相 邻 的 英 
寸 ， 因 此 导致 的 偏差 可 能 达到 0.5 英寸 (或 1.3 厘米 )。 同 样 ， 体 重 数据 的 偏差 最 大 可 能 达 
到 0.5 千克 。 














heights 
weights 


thinkstats2.Jitter(heights, 1.3) 
thinkstats2.Jitter(weights, 0.5) 


Jitter 方法 的 具体 实现 如 下 : 


def Jitter(values, jitter=0.5): 





大 
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n = Len(vaLues) 
return np.random.uniform(-jitter, +jitter, Nn) + values 


参数 values 可 以 是 任何 序列 ， 结 果 为 NumPy 数组 。 


图 7-1 ( 右 ) 展示 了 拉动 处 理 之 后 的 绘制 结果 。 拌 动 减 弱 了 四 舍 五 入 导致 的 视觉 效果 ， 使 
变量 关系 的 形状 更 加 清晰 。 但 是 ， 拌 动 数据 通常 只 应 用 于 视觉 效果 ， 你 应 该 避免 在 分 析 时 
征用 经 过 抖动 处 理 的 数据 。 


即便 经 过 了 抖动 处 理 ， 散 点 图 也 不 是 展示 数据 的 最 佳 方法 。 图 中 有 很 多 重合 的 点 ， 让 盖 了 
密集 部 分 的 数据 ， 使 离 群 值 显得 特别 突出 。 这 种 效果 称 为 包 和 (saturation)。 


























我 们 可 以 使 用 参数 aLpha 解决 这 个 问题 ， 将 图 中 的 点 显示 为 半 透 明 的 。 





thinkplot.Scatter(heights, weights, alpha=0.2) 








图 7-2 ( 左 ) 展示 了 绘制 结果 。 重 全 的 数据 点 颜色 较 深 因此 颜色 的 深度 与 数据 的 密集 程 
度 成 正比 。 在 这 张 图 中 ， 我 们 可 以 看 到 两 个 新 的 细节 : 坚 直 方向 上 ， 数 据点 汇集 在 几 个 高 
度 周 围 ， 接 近 90 千克 (或 200 磅 ) 处 有 一 条 水 平 线 。 这 些 数据 是 调查 参与 者 自己 提供 的 ， 
单位 为 磅 ， 因 此 很 有 可 能 是 因为 一 些 参与 者 提供 了 四 舍 五 入 的 数据 从 而 导致 这 些 现象 。 
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图 7-2: 经 过 拌 动 和 透明 处 理 的 散 点 图 ( 左 ) 和 hexbin 图 ( 右 ) 


对 于 中 等 规模 的 数据 集 ， 在 散 点 图 中 设置 透明 度 效 果 很 好 。BRFSS 数据 有 414 509 条 ， 图 
7-2 只 显示 了 其 中 的 前 5000 条 。 














要 处 理 规 模 更 大 的 数据 集 ， 可 以 使 用 hexbin 图 。hexbin 图 将 图 像 划 分 为 六 角形 的 区 间 ， 将 
每 个 区 间 按 照 其 中 数据 点 的 数量 进行 着 色 。thinkplot 提供 HexBin 方法 。 








thinkplot.HexBin(heights, weights) 
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7-2 ( 右 ) 展示 了 hexBin 绘制 结果 。hexbin 的 优点 是 可 以 很 好 地 展示 变量 关系 的 形状 ， 


并 且 对 于 大 数据 集运 行 效率 (时 间 效 率 和 生成 的 文件 大 小 ) 
可 见 。 





很 高 。 缺 点 是 离 群 值 在 图 中 不 











从 这 个 示例 我 们 可 以 看 出 ， 要 绘制 一 个 既 能 清晰 展示 变量 关系 ， 又 不 产生 误导 效果 的 散 点 





图 ， 并 非 易 事 。 


7.2 ”描述 关系 特征 


散 点 图 能 让 我 们 对 变量 关系 有 个 大 体 了 解 ， 而 其 他 可 视 化 方法 则 可 以 让 我 们 更 深入 地 了 解 
变量 关系 的 本 质 。 一 种 方法 是 对 一 个 变量 进行 分 区 ， 绘 制 另 一 个 变量 的 百 分 位 数 。 

















NumPy 和 pandas 都 提供 数据 分 区 函数 。 





df = df.dropna(subset=['htm3', 'wtkg2']) 
bins = np.arange(135, 210, 5) 

indices = np.digitize(df.htm3, bins) 
groups = df.groupby(indices) 





dropna 去 除 指定 列 含 有 nan 值 的 数据 行 。arrange 产生 一 个 NumPy 区 间 数 组 ， 范 围 为 从 


135 (不 含 ) 到 210， 增 量 为 5。 























digitize 计算 出 df.htm3 中 每 个 值 所 属 区 间 的 索引 ， 结 果 为 一 个 包含 整数 索引 值 的 NumPy 























数组 。 如 果 值 小 于 最 低 区 间 ， 则 索引 为 0， 如 果 值 大 于 最 高 








区 间 ， 则 索引 为 len(bins)。 


groupby 是 一 种 DataFrame 方法 ， 返 回 一 个 GroupBy 对 象 。 当 用 在 for 循环 中 时 ， 


groups 遍历 其 中 的 组 名 ,以 及 代表 各 组 的 DataFrame 对象。 因此， 我们 可 以 打印 出 每 组 


中 的 行 数 。 


for i, group in groups: 
print(i, Len(group)) 


然后 ， 对 每 个 组 ， 我 们 可 以 计算 其 身高 均值 和 体重 CDF。 





heights = [group.htm3.mean() for i., group in groups] 
cdfs = [thinkstats2.Cdf(group.wtkg2) for i., group in 


最 后 ， 我 们 可 以 绘制 身高 对 应 的 体重 百 分 位 数 。 


for percent in [75, 50, 25]: 
weights = [cdf.Percentile(percent) for cdf in cdf 
label = '%dth' % percent 
thinkplot.Plot(heights, weights, label=label) 


groups] 


s] 


图 7-3 展示 了 绘制 结果 。 在 140~200 厘米 ， 变 量 关系 几乎 是 线性 的 。140~200 厘米 这 个 范 

















围 涵盖 了 超过 99% 的 数据 ， 因 此 我 们 无 需 对 极端 值 过 多 考虑 。 
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图 7-3: 一 组 高 度 分 区 的 体重 百 分 位 数 


7.3 ”相关 性 


相关 性 (correlation) 是 一 个 统计 量 ， 用 于 量化 两 个 变量 之 间 关 系 的 强 弱 。 








度量 相关 性 的 困难 之 处 在 于 ， 我 们 需要 比较 的 变量 通常 使 用 不 同 的 单位 。 即 便 变量 使 用 相 
同 的 单位 ， 也 可 能 来 自 不 同 的 分 布 。 

















这 些 问 题 有 两 个 常见 的 解决 方法 。 
。 将 每 个 值 都 转换 为 标准 分 数 (standard score) ， 即 其 偏离 均值 的 标准 差 数 。 这 种 转换 会 
产生 “Pearson 乘积 矩 相 关系 数 ”。 


。 将 每 个 值 都 转换 为 秩 ， 即 其 在 所 有 值 的 排序 列表 中 的 索引 。 这 种 转换 会 产生 “Spearman 
秩 相关 系数 ”。 


假设 由 nn 个 值 (x,) 构成 ， 将 每 个 值 减 去 均值 ， 然 后 除 以 标准 差 ， 即 可 得 到 标准 分 数 : 
2 二 (Cr-A)/a。 




















公式 中 的 分 子 是 一 个 偏差 ， 即 到 均值 的 距离 。 除 以 c 可 以 将 偏差 标准 化 (standardize)， 因 
此 2Z 的 值 是 无 量 纲 (无 单位 ) 的 ， 其 分 布 的 均值 为 0， 方 差 为 1。 

如 果 式 符合 正 态 分 布 ， 那 么 Z 也 符合 正 态 分 布 。 但 如 果 工 是 偏 斜 的 或 包含 离 群 值 ， 那 么 Z 
也 会 偏 斜 或 包含 离 群 值 。 在 这 种 情况 下 ， 使 用 百 分 位 秩 的 稳健 性 更 好 。 如 果 计 算 一 个 新 变 
量 R, 使 x; 为 x 的 秩 ， 那么 无 论 XX 的 分 布 如 何 ，R 总 是 从 1 到 的 均匀 分 布 。 
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7.4 协 方差 


协 方差 〈covariance) 可 以 度量 两 个 变量 共同 变化 的 趋势 。 如 果 我 们 有 两 个 序列 和 了 ， 那 
么 序列 中 的 值 与 均值 的 偏差 分 别 为 : 














dxi;= Xxi— Xx 


dy,= y,—y 


























其 中 x 是 闭 的 样本 均值 ，y 是 了 的 样本 均值 。 如 果 半 和 了 共同 变化 ， 那 么 这 些 偏差 的 正 负 
性 也 会 相同 。 


将 这 两 组 偏差 相 乘 ， 如 果 偏 差 的 正 负 性 相同 ， 那 么 乘积 就 是 正 数 ， 如 果 偏 差 的 正 负 性 相 
反 ， 那 么 乘积 就 是 负数 。 因 此 ， 将 这 些 乘积 累加 ， 就 可 以 度量 两 组 值 共同 变化 的 趋势 。 


协 方差 是 这 些 乘积 的 均值 。 






































Cov (X,Y) = DY ar, day， 











其 中 为 这 两 个 序列 的 长 度 ( 两 个 序列 的 长 度 必 须 相 等 )。 


如 果 你 学 习 过 线性 代数 ， 可 能 会 发 现 Cov 是 两 组 偏差 的 点 乘积 除 以 其 长 度 。 因 此 ， 如 果 两 
个 向 量 相同 ， 则 协 方差 值 最 大 ， 如 果 两 个 向 量 正 交 ， 则 协 方差 为 0， 如 果 两 个 向 量 方向 相 
反 ， 则 协 方 差 为 负数 。thinkstats2 使 用 np.dot 有 效 地 实现 了 Cov 算法 。 



































def Cov(xs, ys, meanx=None, meany=None): 
xs = np.asarray(xs) 
ys = np.asarray(ys) 


if meanx is None: 

meanx = np.mean(xs) 
if meany is None: 

meany = np.mean(ys) 


cov = Np.dot(xs-meanx, ys-meany) / len(xs) 
return cov 





默认 情况 下 ，Cov 计算 各 点 到 样本 均值 的 偏差 .或 者 你 也 可 以 提供 已 知 的 均值 。 如 果 xs 和 
ys 是 Python 序列 ， 那 么 np.asarray 会 将 xs 和 ys 转换 为 NumPy 数组 。 如 果 xs 和 ys 本 身 
就 是 NumPy 数据 ， 那 么 np.asarray 就 不 进行 处 理 。 


协 方差 的 这 个 实现 版 本 非常 简单 ， 易 于 解释 。NumPy 和 pandas 也 提供 协 方差 的 实现 ， 但 
都 用 到 了 对 小 样本 的 矫正 ， 而 我 们 还 未 介绍 过 这 部 分 知识 。 而 且 ，np.cov 返回 的 是 协 方差 
矩阵， 对 我 们 目前 而 言 过 于 复杂 了 。 
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7.5 Pearson 相关 性 


协 方差 在 一 些 计算 中 非常 有 用 ， 但 其 含义 很 难 解释 ， 因 此 人 们 很 少将 协 方差 作为 摘要 统计 
量 。 别 的 不 提 ， 协 方差 的 单位 是 和 和 了 的 单位 乘积 ， 这 一 点 就 很 难 理解 。 例 如 ，BRFSS 
数据 集中 体重 和 身高 的 协 方差 是 113 千克 - 厘米 ， 天 了 晓得 这 是 什么 意思 。 


解决 这 个 问题 的 方法 之 一 是 将 偏差 除 以 标准 差 ， 得 到 标准 分 数 ， 然 后 计算 标准 分 数 的 乘积 : 








Sy (y= %) 0 一 ») 


l Sx Sy 


其 中 Sr 和 $y 分 别 是 式 和 了 的 标准 差 。 这 些 乘积 的 均值 为 : 


三 于 
p= 7 p; 
或 者 ， 我 们 可 以 通过 分 解 Sy 和 5) 改写 标准 差 : 


本 Cov (X, 7) 


/二 


这 个 公式 以 一 位 很 有 影响 力 的 统计 学 家 Karl Pearson 的 名 字 命 名 ， 称 为 Pearson 相关 性 
(Pearson's correlation) 。Pearson 相关 性 容易 计算 ， 也 易于 解释 。 因 为 标准 分 数 是 无 量 纲 
(无 单位 )， 所 以 p 也 是 无 单位 的 。 


thinkstats2 中 的 Pearson 相关 性 实现 代码 如 下 : 














def Corr(xs, ys): 
xs = np.asarray(xs) 
ys = np.asarray(ys) 


meanx, varx = MeanVar(xs) 
meany, vary = MeanVar(ys) 


corr = Cov(xs, ys, meanx, meany) / math.sqrt(varx * vary) 
return corr 


比 起 单独 调用 np.mean 和 np.var，MeanVar 计算 均值 和 协 方 差 的 性 能 稍 好 。 


Pearson 相关 性 取 值 介 于 -1~+1 之 间 (包含 端点 )。 如 果 p 是 正 数 ， 那 么 我 们 可 以 说 两 个 变 
量 正 相 关 ， 即 当 一 个 变量 值 较 大 时 ， 另 一 个 变量 的 值 也 会 较 大 。 如 果 是 负数 ， 那 么 变量 
负 相 关 ， 因 此 当 一 个 变量 值 较 大 时 ， 另 一 个 变量 值 较 小 。 


P 的 大 小 表明 了 相关 性 的 强 弱 程 度 。 如 果 为 1 或 -1， 两 个 变量 完全 相关 ， 也 就 是 说 ， 如 
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果 你 知道 一 个 变量 的 值 ， 就 可 以 对 另 一 个 变量 的 值 进行 准确 的 预测 。 


现实 世界 中 的 大 部 分 相关 性 都 不 是 完全 的 ， 但 相关 性 依然 有 其 作用 。 身 高 和 体重 的 相关 性 
为 0.51， 比 起 其 他 与 人 类 相关 的 变量 ， 身 高 和 体重 具有 很 强 的 相关 性 。 


7.6 非 线 性 关系 


如 果 Pearson 相关 性 接近 0， 你 可 能 会 认为 变量 之 间 疫 有 关系 ， 但 这 个 结论 并 不 成 立 。 
Pearson 相关 性 只 度量 了 线性 (linear) 关系 。 如 果 变 量 之 间 存 在 非 线性 关系 ， 那 么 p 对 变 
量 相关 性 强 弱 的 估计 就 可 能 是 错误 的 。 











7-4 摘 取 自 http://wikipedia.org/wiki/Correlation_and_dependence， 展 示 了 儿 个 精心 设计 的 
数据 集 的 散 点 图 和 相关 系数 。 
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图 7-4: 各 种 相关 性 的 数据 集 示例 


第 1 行 展 示 了 有 具有 不 同 线性 相关 性 的 数据 集 。 你 可 以 从 这 一 行 直 观感 受 不 同 p 值 的 相关 性 
是 怎样 的 。 第 2 行 展示 了 具有 不 同 斜 度 的 完全 相关 ， 说 明 相 关 性 与 斜 度 无 关 (我 们 很 快 会 
介绍 如 何 估计 和 斜 度 )。 第 3 行 展 示 的 变量 明显 具有 相关 性 ， 但 因为 变量 之 间 的 关系 是 非 线 
性 的 ， 因 此 协 方差 为 0。 


因此 ， 在 盲目 计算 协 方差 之 前 ， 我 们 首先 应 该 查看 数据 的 散 点 图 ， 以 免得 出 错误 的 结论 。 


7.7 ”Spearman 秩 相关 


如 果 变 量 之 间 的 关系 是 线性 的 ， 而 且 变 量 大 致 符合 正 态 分 布 ， 那么 Pearson 相关 性 能 够 很 
好 地 说 明 相 关 性 的 强 弱 。 但 是 离 群 值 会 影响 Pearson 相关 性 的 稳健 性 。Spearman 秩 相关 能 
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够 缓解 离 群 值 以 及 偏 斜 分 布 的 的 影响 ， 也 可 以 用 于 描述 变量 的 相关 性 。 要 计算 Spearman 
相关 性 ， 必 须 计算 每 个 值 的 秩 (rank)， 即 该 值 在 排序 样本 中 的 索引 。 例 如 ， 在 样本 [1， 
2，5，7] 中 , 值 5 出 现在 排序 列表 的 第 3 位 ， 因 此 秩 为 3。 然 后 我 们 需要 计算 这 些 秩 的 
Pearson 相关 性 。 








thinkstats2 提供 了 一 个 计算 Spearman 秩 相 关 的 函数 。 


def SpearmanCorr(xs, ys): 
xranks = pandas.Series(xs).rank() 
yranks = pandas.Series(ys).rank() 
return Corr(xranks, yranks) 





可 以 将 函数 的 参数 转换 为 pandas Series 对 象 ， 从 而 使 用 Series 提供 的 rank 方法 计算 每 个 值 
的 秩 ， 结 果 返 回 一 个 Series 对 象 ， 然 后 使 用 Corr 计算 这 些 秩 的 相关 性 。 


也 可 以 直接 使 用 Series.corr 方法 ， 在 参数 中 指定 使 用 Spearman 方法 。 

















def SpearmanCorr(xs, ys): 
xranks = pandas.Series(xs) 
yranks = pandas.Series(ys) 
return xs.corr(ys, method='spearman') 


BREFSS 数据 的 Spearman 秩 相 关系 数 为 0.54， 比 Pearson 相关 性 0.51 略 高 。 导 致 差 值 产生 
的 原因 有 : 


。 如 果 变 量 之 间 的 关系 是 非 线 性 的 ， 那 么 Pearson 相关 性 会 低估 相关 性 的 强 弱 ， 
。 如 果 所 研究 的 分 布 之 一 是 偏 斜 的 或 包含 离 群 值 ， 那 么 Pearson 相关 性 在 两 个 方向 都 可 能 
受到 影响 ， 而 Spearman 秩 相 关 的 稳健 性 较 好 。 


在 前 面 讨论 的 BRFSS 数据 示例 中 ， 我 们 知道 体重 数据 大 致 符合 对 数 正 态 分 布 。 体 重 数据 
经 过 对 数 转换 后 ， 大 致 符合 正 态 分 布 ， 数 据 分 布 不 偏 斜 。 因 此 ， 要 消除 数据 分 布 偏 斜 的 影 
响 ， 还 有 一 个 方法 是 计算 体重 对 数值 和 身高 值 的 Pearson 相关 性 。 






































thinkstats2.Corr(df.htm3, np.log(df.wtkg2))) 


计算 结果 为 0.53， 非 常 接近 Spearman 秩 相关 系数 0.54。 这 说 明 Pearson 相关 性 和 Spearman 
秩 相关 系数 的 差 值 主要 是 由 体重 分 布 的 偏 斜 导致 的 。 


7.8 相关 性 和 因果 关系 


如 果 变 量 A 和 B 相关 ， 那么 有 3 种 可 能 的 解释 : A 导致 B， 或 B 导致 A， 或 其 他 茶 些 因 
素 导 致 A 和 B。 这 些 解释 称 为 “因果 关系 ”(causal relationship)。 


















































相关 性 本 身 并 不 能 区 分 这 些 情况 ， 因 此 无 法 告诉 你 哪 种 解释 是 正确 的 。 这 条 规则 通常 可 用 
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一 句 话 进行 总 结 :“ 相 关 性 并 不 意味 着 因果 关系 ”， 这 句 话 一 语 中 的 ， 简 明 扼 要 ， 其 至 有 专 
门 的 维基 百科 页 面 : http://wikipedia.org/wiki/Correlation_does_not_imply_causation。 








那么 ， 如 何 才 能 证 明 因果 关系 的 存在 呢 ? 


。 时 间 
如 果 A 在 B 之 前 发 生 ， 那 么 A 可 能 导致 B， 而 B 不 可 能 导致 A (至 少 按照 我 们 对 因果 关 
系 的 理解 是 这 样 的 )。 事 件 的 发 生 顺序 可 以 帮助 我 们 推导 出 谁 是 因 谁 是 果 ， 但 并 不 能 排除 
其 他 因素 可 能 既 导 致 了 A 又 导致 了 B。 

















。 随机 性 

如 果 将 一 个 大 型 样本 随机 分 为 两 组 ， 计 算 任 意 变量 的 均值 ， 那 么 两 组 结果 的 差别 应 该 很 小 。 
如 果 两 组 的 所 有 变量 均值 都 相同 ， 只 有 一 个 不 同 ， 那 么 你 可 以 据 此 排除 虚假 关系 的 可 能 性 。 
即使 你 不 知道 相关 的 变量 是 什么 ， 也 可 以 使 用 这 种 方法 。 但 是 如 果 你 知道 相关 的 变量 是 什 
么 ， 就 可 以 检查 这 些 分 组 在 各 方面 是 相同 的 ， 那 么 效果 将 会 更 好 。 



































正 是 这 些 想法 催生 了 随机 对 照 试验 (randomized controlled trial) 。 在 随机 对 照 试验 中 ， 试 验 
对 象 被 随机 分 配 到 两 个 (或 更 多 ) 组 : 试验 组 (treatment group) 和 对 照 组 (control group ) 。 
试验 组 接受 某 些 干预 ， 例 如 新 药物 ， 对 照 组 不 接受 干预 ,或 者 接受 其 他 效果 已 知 的 干预 。 


随机 对 照 试 验 是 展示 因果 关系 的 最 可 靠 方 法 ， 黄 定 了 基于 科学 的 医学 研究 (参见 http:/ 


wikipedia.org/wiki/Randomized_controlled_trial J 























不 幸 的 是 ， 对 照 试 验 只 能 在 实验 室 科 学 、 医 学 以 及 其 他 少数 领域 中 进行 。 在 社会 科学 中 ， 
对 照 试验 通常 无 法 进行 或 存在 道德 争议 ， 因 此 非常 少见 。 

















揭示 因果 关系 的 另 一 个 方法 是 寻找 自然 实验 (natural experiment) ， 对 各 方面 相似 的 组 实施 
不 同 的 “处 理 ”。 自 然 实验 存在 一 个 危险 ， 即 实验 组 可 能 存在 一 些 不 易 被 发 现 的 差异 。 你 
可 以 从 http://wikipedia.org/wiki/Natural_experiment 得 到 更 多 相关 信息 。 












































在 某 些 情况 下 ， 我 还 可 以 使 用 回归 分 析 (regression analysis) 来 推导 出 因果 关系 。 第 11 章 
将 详细 介绍 回归 分 析 。 


7.9 练习 

本 章 练习 的 参考 答案 位 于 chap07soln.py 中 。 

。 练习 7.1 

请 使 用 全 国家 庭 增长 调查 数据 ， 绘 制 新 生 儿 体重 与 母亲 年 龄 关系 的 散 点 图 ;绘制 新 生 儿 体 
重 与 母亲 年 龄 的 百 分 位 数 ， 计 算 Pearson 和 Spearman 相关 性 。 你 如 何 描述 这 些 变量 之 间 的 
关系 ? 




















7.10 术语 


散 点 图 (scatter plot) 

两 个 变量 之 间 关 系 的 可 视 化 展现 ， 将 每 行 数据 显示 为 一 个 点 。 
持 动 (jitter) 

为 了 可 视 化 而 在 数据 中 加 入 的 随机 噪音 。 


饱和 (saturation) 


多 个 点 重 县 而 导致 的 信息 丢失 。 








相关 性 (correlation) 
衡量 两 个 变量 之 间 关 系 强 弱 的 统计 量 。 


标准 化 (standardize) 
将 一 组 值 进行 转换 ， 使 其 均值 为 0， 方差 为 1。 


标准 分 数 (standard score) 
一 个 标准 化 的 值 ， 表 示 为 距离 均值 的 标准 差 数 。 














协 方差 (covariance) 
对 两 个 变量 共同 变化 趋势 的 度量 。 





秩 (rank) 
一 个 元 素 出 现在 排序 列表 中 的 索引 。 


随机 对 照 试 验 (randomized controlled trial ) 





一 种 实验 设计 ， 研 究 对 象 随机 分 组 ， 不 同 的 组 接受 不 同 的 试验 处 理 。 


试验 组 (treatment group) 
对 照 试 验 中 接受 某 些 干预 的 组 。 


对 照 组 (control group) 
对 照 试 验 中 不 接受 干预 的 组 ， 或 者 接受 效果 已 知 的 干预 。 


自然 实验 (natural experiment) 


一 种 实验 设计 ， 特 征 是 实验 对 象 可 以 自然 划分 为 至 少 近似 随机 的 组 。 











二 


之 间 的 关系 
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第 8 和 章 


估计 





本 章 代码 位 于 estimation.py 中 。 前 言 介绍 了 如 何 下 载 和 使 用 本 书 代码 。 


8.1 估计 游戏 
让 我 们 来 做 一 个 游戏 。 我 想 一 个 分 布 ， 你 来 猜 这 个 分 布 是 什么 。 两 个 提示 : 这 是 一 个 正 态 
分 布 ; 分 布 的 随机 样本 如 下 。 





[-0.441, 1.774, -0.101, -1.138, 2.975, -2.138] 


你 猜 这 个 分 布 的 均值 上 是 多 少 ? 




















一 个 方法 是 使 用 样本 均值 x 作为 4 的 估计 。 在 本 例 中 ，x 为 0.155， 因 此 合理 的 猿 测 是 
X=0.155。 这 个 过 程 称 为 估计 (estimation)， 我 们 使 用 的 统计 量 (样本 均值 ) 称 为 估计 量 


(estimator ) 。 








使 用 样本 均值 估计 4 是 显而易见 的 方法 ， 我们 似乎 很 难 想 出 其 他 方法 。 但 是 ， 假 设 我 们 对 
游戏 稍 作 修改 ， 引 入 离 群 值 。 

我 在 想 一 个 分 布 。 这 是 个 正 态 分 布 ， 一 位 调查 员 收集 了 这 个 分 布 的 一 个 样本 。 这 位 调查 员 
工作 不 太 认 真 ， 有 时 会 把 小 数 点 写 错位 置 ， 他 收集 的 样本 如 下 : 








[-0.441, 1.774, -0.101, -1.138, 2.975, -213.8] 


现在 你 该 如 何 估计 yx? 如果 使 用 样本 均值 ， 你 的 估计 值 会 是 -35.12。 使 用 样本 均值 进行 估 
计 是 最 好 的 方法 吗 ? 还 有 其 他 佑 计 方 法 吗 ? 
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一 种 方法 是 找 出 并 去 除 离 群 值 ， 然 后 计算 剩余 的 样本 均值 。 另 一 种 方法 是 使 用 中 位 数 作为 
估计 量 。 


使 用 哪 种 估计 量 效果 更 好 ? 这 取决 于 具体 情况 〈 例 如 是 否 存在 离 群 值 ) 及 目标 。 你 要 使 误 
差 最 小 ， 还 是 要 使 答案 正确 的 几率 最 大 ? 
































如 果 没 有 离 群 值 ， 那 么 使 用 样本 均值 作为 估计 量 能 够 使 均 方 误差 (mean squared error， 
MSE) 最 小 。 也 就 是 说 ， 如 果 我 们 将 这 个 估计 游戏 进行 多 次 ， 计 算 每 次 的 误差 x -ww， 那 么 
样本 均值 可 以 使 下 面 的 值 最 小 : 






































MSE= DG 一 











其 中 m 为 游戏 次 数 ， 请 不 要 把 它 和 nn 搞 混 了 ,nn 是 用 于 计算 x 的 样本 大 小 。 


下 面 的 函数 模拟 了 这 个 估计 游戏 ， 计 算 均 方 误差 的 平方 根 ， 即 均 方 根 误差 (root mean 
squared error, RMSE ) 。 




















def Estimate1(n=7, m=1000): 


mu = 0 
sigma = 1 
means = [] 


medians = [] 
for _ in range(m): 
xs = [random.gauss(mu, sigma) for i in range(n)] 
xbar = np.mean(xs) 
median = np.median(xs) 
means .append(xbar) 
medians.append(median) 


print('rmse xbar', RMSE(means, my)) 
print('rmse median', RMSE(medians, mu)) 





再 次 提醒 : n 是 样本 的 大 小 ， 而 m 是 游戏 重复 的 次 数 。means 是 基于 x 的 估计 列表 。medians 
是 中 位 数列 表 。 


下 面 的 函数 计算 均 方 根 误差 。 

















def RMSE(estimates, actual): 
e2 = [(estimate-actual)**2 for estimate in estimates] 
mse = np.mean(e2) 
return math.sqrt(mse) 





estimates 是 估计 列表 ，acutal 是 待 估计 的 实际 值 。 当 然 ， 在 实际 应 用 中 我 们 无 法 知道 
actual。 如 果 actual 已 知 ， 那 我 们 就 无 需 进行 估计 了 。 这 个 实验 的 目的 是 比较 这 两 个 佑 计 
量 的 性 能 优 劣 。 
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运行 上 面 的 代码 ， 我 们 得 到 样本 均值 的 均 方 根 误差 为 0.41。 也 就 是 说 ， 如 果 我 们 基于 n=7 
的 样本 ,使 用 x 估计 分 布 的 均值 ， 那 么 预期 的 偏差 平均 为 0.41。 使 用 中 位 数 估计 均值 得 到 
的 均 方 根 误差 为 0.53， 证 实 使 用 x 的 均 方 根 误差 较 小 ， 至 少 在 本 例 中 是 如 此 。 


使 均 方 误差 最 小 当然 很 好 ， 但 不 一 定 是 最 佳 策 略 。 例 如 ， 假 设 我 们 要 估计 一 个 建筑 工地 的 
风速 分 布 。 如 果 估 计 的 结果 太 高 ， 那 么 我 们 可 能 会 不 必要 地 增加 结构 强度 ， 导 致 成 本 增 
加 ; 但 如 果 估 计 的 结果 太 低 ， 建 筑 物 可 能 会 倒塌 。 估 计 值 偏 大 或 是 偏 小 ， 导 致 的 成 本 变化 
并 不 相同 ， 因 此 一 味 追 求 均 方 误差 最 小 并 非 最 佳 策 略 。 

再 举 个 例子 ,假设 我 拨 3 次 般 子 ， 让 你 预测 点 数 总 和 。 如 果 你 猜 对 了 ， 就 会 赢得 奖品 ， 猜 
错 了 则 空手 而 归 。 在 这 种 情况 下 ， 使 均 方 误差 最 小 的 估计 值 是 10.5， 但 是 这 个 猜测 显然 不 
靠 谱 ， 因 为 挪 3 次 人 般 子 得 到 的 总 点 数 不 可 能 是 10.5。 此 时 ， 你 希望 作出 最 可 能 与 实际 值 相 
符 的 估计 ， 即 最 大 似 然 估计 量 (maximum likelihood estimator，MLE)。 如 果 你 猜 10 或 者 
11， 正 确 的 可 能 性 最 大 ， 为 1/8。 


8.2 猜测 方差 


我 在 想 一 个 分 布 。 这 是 一 个 正 态 分 布 ， 样 本 (依旧) 如 下 : 





























[-0.441, 1.774, -0.101, -1.138, 2.975, -2.138] 

你 猜 这 个 分 布 的 方差 a 是 多 少 ? 最 显而易见 的 办 法 是 用 样本 方差 8 作为 估计 量 。 
S72= 1 Di- a) 

对 于 大 样本 ，$ 是 不 错 的 估计 量 。 但 是 对 于 小 样本 ，S 通常 比方 差分 布 低 很 多 。 由 于 这 个 


糟糕 的 属性 ， 人 们 将 5S 称 为 偏 侍 (biased) 估计 量 。 如 果 对 于 多 次 重复 实验 ， 一 个 估计 量 
的 预期 误差 总 和 (或 均值 ) 为 0， 那么 这 个 估计 量 就 是 无 偏 的 (unbiased ) 。 














幸好 ， 还 有 一 个 简单 统计 量 是 e 的 无 偏 估 计量 。 








3 1=—L D(x 


nO—l1 





至 于 为 什么 是 偏 倚 的 ， 而 S? _ | 是 无 偏 的， 请 参考 http://wikipedia.org/wiki/Bias_of_an 
estimator。 


这 个 估计 量 的 最 大 问题 是 ， 名 字 和 符号 用 法 不 一 致 ， 名 字 是 “样本 方差 "， 既 可 以 指 5， 
也 可 以 指 5?2 _ |， 而 二 者 都 使 用 符号 8 。 
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硬 的 函数 模拟 了 这 个 估计 游戏 ， 并 测试 SS 和 Ss? _ ,的 性 能 。 


def Estimate2(n=7, m=1000): 
mu = 0 
sigma = 1 


下 


7 














estimates1 = [] 

estimates2 = [] 

for _ in range(m): 
xs = [random.gauss(mu, sigma) for i in range(n)] 
biased = np.var(xs) 
unbiased = np.var(xs, ddof=1) 
estimates1.append(biased) 
estimates2.append(unbiased) 


print('mean error biased', MeanError(estimates1, sigma**2)) 
print('mean error unbiased', MeanError(estimates2, sigma**2)) 


再 次 提醒 : n 是 样本 大 小 ， 而 m 是 游戏 进行 的 次 数 。 默 认 情 况 下 ，np.var 计算 SS， 如 果 指 
定 参 数 ddof=1，ddof 代表 “自由 度 增 量 ” (delta degrees of freedom) ，np.var 则 计算 s2 _,。 
我 在 这 里 不 会 解释 自由 度 增 量 是 什么 ， 你 可 以 参考 http://en.wikipedia.org/wiki/Degrees_of_ 


freedom_(statistics)。 














MeanError 计算 估计 值 和 实际 值 之 间 差 别 的 均值 o 


def MeanError(estimates, actual): 
errors = [estimate-actual for estimate in estimates] 
return np.mean(errors) 





运行 上 面 的 代码 ， 得 到 $ 的 误差 均值 为 -0.13。 正 如 我 们 所 料 ， 这 个 偏 倚 估 计量 总 是 偏 低 。 
Sa - 1 的 误差 均值 为 0.014， 约 为 5 误差 均值 的 110。 随 着 m 增加 ， 我 们 预期 $; - ;的 误差 
均值 会 逐渐 接近 0。 





























均 方 误差 和 偏 倚 都 属于 长 期 属性 ， 建 立 在 估计 游戏 多 次 重复 的 基础 上 。 通 过 运行 如 本 章 所 
示 的 模拟 代码 ， tr tg 


但 是 ， 如 果 将 一 个 估计 量 用 于 真实 数据 ， 你 只 能 进行 一 次 估计 。 在 这 种 情况 下 ， 说 一 个 估 
计 无 偏 没 有 任何 意义 。 无 偏 是 估计 量 的 属性 ， 而 不 是 某 次 估计 的 属性 。 


这 全 二 有 适当 属 生 打 用 全 是 和 用 枯 生 大 二 小 各 二 局 ， 下 一 步 是 描述 这 个 估计 的 不 确定 
性 。 这 就 是 下 一 市 讨论 的 内 容 。 


8.3 抽样 分 布 


假设 你 是 一 位 科学 家 ， 在 野生 动物 保护 区 研究 大 猩猩 。 你 想 知道 保护 区 中 成 年 雌性 大 猩猩 
的 平均 体重 。 要 给 猩猩 称 重 ， 你 必须 将 它们 麻 醇 。 这 种 做 法 既 危险 又 有 很 高 成 本 ， 还 可 能 






































伤害 大 猩猩 。 但 是 ， 如 有 果 获 得 保护 区 中 成 年 肉 性 大 猩猩 的 平均 体重 非常 重要 ， 我 们 也 许可 
以 测量 9 只 大 猩猩 的 体重 作为 样本 。 假 设 我 们 对 保护 区 中 大 猩猩 的 情况 非常 了 解 ， 那 么 就 
能 选 出 具有 代表 性 的 成 年 雌性 大 猩猩 样本 。 我 们 可 以 使 用 这 个 样本 均值 x 来 估计 未 知 的 总 
体 均 值 /。 









































测量 了 9 只 雌性 大 猩猩 的 体重 后 ， 你 得 到 x = 90 千克 ， 样 本 均 方 差 9 = 7.5 千克 。 样 本 均值 
是 总 体 均值 / 的 无 偏 佑 计量， 在 多 次 重复 实验 中 可 以 使 均 方 误差 最 小 。 因 此 ， 如 果 需 要 用 
一 个 佑 计 值 来 概括 结果 ， 你 应 该 估计 保护 区 中 成 年 雌性 大 猩猩 的 平均 体重 为 90 千克 。 


但 是 ， 你 对 这 个 估计 值 的 准确 性 有 多 少 信心 呢 ? 如 果 只 是 从 数量 庞大 的 大 猩猩 总 体 中 抽取 
9 只 测量 体重 ， 有 可 能 运气 不 好 ， 抽 到 了 最 重 的 9 只 (或 者 最 轻 的 9 只 ) 。 由 随机 选择 导致 
的 估计 变化 称 为 抽样 误差 (sampling error)。 










































































为 了 量化 抽样 误差 ， 我 们 可 以 假定 4 和 的 取 值 ， 模 拟 抽样 过 程 ， 观 察 Y 如 何 变化 。 





由 于 总 体 人 4 和 的 实际 值 未 知 ， 因 此 我 们 将 使 用 估计 值 x 和 $。 我 们 需要 回答 的 问题 是 : 
如 果 4 和 的 实际 值 分 别 为 90 千克 和 7.5 千克 ， 在 多 次 运行 相同 的 实验 后 ， 估 计 均 值 x 将 
如 何 变 化 ? 





























解答 这 个 问题 的 代码 如 下 : 


def SimulateSample(mu=90, sigma=7.5, N=9, m=1000): 
means = [] 
for j in range(m): 
xs = np.random.normal(mu, sigma, Nn) 
xbar = np.mean(xs) 
means .append(xbar) 


cdf = thinkstats2.MakeCdfFromList(means) 
ci = cdf.Percentile(5), cdf.Percentile(95) 
stderr = RMSE(means, mu) 


mu 和 sigma 是 参数 的 假定 值 。n 是 样本 大 小 ， 即 我 们 称 重 的 大 猩猩 数 。n 是 运行 模拟 的 
在 每 次 循环 中 ,我们 从 具有 给 定 参 数 的 正 态 分 布 中 选择 n 个 值 ， 计 算 样 本 均值 xbar。 代 码 
进行 1000 次 模拟 过 程 ， 然 后 计算 估计 值 分 布 的 cdf。 结 果 如 图 8-1 所 示 。 这 个 分 布 称 为 估 
计量 的 抽样 分 布 (sampling distribution)， 展 示 了 多 次 重复 实验 时 估计 值 的 变化 。 
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抽样 分 布 


1.0 























图 8-1: x 的 抽样 分 布 以 及 置信 区 间 





抽样 分 布 的 均值 与 假定 值 y 非常 接近 ， 说 明 平均 而 言 ， 这 个 实验 产生 了 正确 的 结果 。 在 
1000 次 重复 实验 中 ， 最 低 结果 为 82 千 殉 ， 最 高 结果 为 98 千克 。 这 个 范围 说 明 估计 值 与 实 














际 值 的 偏差 可 能 达到 8 千克 。 
人 们 通常 用 两 种 方法 对 抽样 分 布 进行 概括 。 











标准 误差 (standard error,，SE) 








度量 预期 估计 值 平均 偏离 实际 值 多 少 。 对 每 次 模拟 实验 ， 先 计算 误差 x - 上， 然后 计算 均 方 











根 误差 ， 即 得 到 标准 误差 。 在 这 个 示例 中 ， 


置信 区 间 《confidential interval，C1) 
包含 抽样 分 布 中 指定 比例 的 范围 。 例 如 ，9 


示 准 误差 约 为 2.5 千克 。 


0% 置信 区 间 是 从 第 5 百 分 位 数 到 第 95 百 分 位 


数 。 在 这 个 示例 中 ，90% CI 是 (86,94) 千克 。 





关于 标准 误差 和 置信 区 间 的 误解 有 很 多 。 














。 人 们 常常 混 请 标准 误差 和 标准 差 。 请 记 信 


中 , 大 猩猩 体重 的 标准 差 是 7.5 千克 。 标 











FE: 标准 差 描 述 的 是 度量 值 的 变化 。 在 这 个 示例 
准 误差 描述 的 是 估计 值 的 变化 。 在 这 个 示例 中 ， 


基于 9 个 测量 样本 估计 出 的 均值 标准 误差 为 2.5 千克 。 
标准 误差 和 标准 差 有 一 个 区 别 : 随 着 样本 量 的 增加 ， 标 准 误差 会 变 小 ， 而 标准 差 则 不 变 。 
。 人 们 常常 认为 ， 实际 参数 4 落 入 90% 置信 区 间 的 概率 为 90%。 不 幸 的 是 ， 这 种 想法 














并 不 正确 。 如 果 你 要 得 出 类 似 的 结论 ， 


就 必须 使 用 贝 叶 斯 方法 (请 参考 我 写 的 Think 
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Bayes 一 书 ) 。 
抽样 分 布 回 答 的 是 另 一 个 问题 ， 告 诉 你 重复 进行 实验 时 一 个 估计 值 会 如 何 变化 ， 使 你 对 
估计 值 的 可 靠 性 有 所 了 解 。 


置信 区 间 和 标准 误差 只 量化 了 抽样 误差 ， 即 由 于 只 测量 了 总 体 中 的 部 分 成 员 而 导致 的 误 
差 。 记 住 这 一 点 非常 重要 。 抽 样 分 布 不 考虑 其 他 情况 的 误差 ， 特别 是 抽样 偏 位 和 测量 误 
差 。 下 一 方 将 讨论 抽样 偏 倚 和 测量 误差 。 


8.4 ”抽样 偏 倚 


假设 你 不 需要 测量 自然 保护 区 中 大 猩猩 的 体重 ， 而 是 要 了 解 所 在 城市 女性 的 平均 体重 。 此 
时 你 不 太 可 能 选取 一 个 具有 代表 性 的 样本 ， 并 测量 她 们 的 体重 。 


一 个 简单 的 方法 是 “电话 抽样 ”: 你 可 以 从 电话 憩 中 选取 随机 号 码 ， 致 电 要 求 与 一 位 成 年 
女性 通话 ， 并 询问 她 的 体重 。 


电话 抽样 具有 明显 的 局 限 性 。 例 如 ， 样 本 限于 公开 了 电话 号 码 的 居民 ， 因 而 排除 了 没有 电 
话 的 人 这些 人 可 能 比较 穷 ) 和 未 公布 号 码 的 人 (这 些 人 可 能 比较 富有 )。 而 且 ， 如 果 你 
在 白天 拨打 家 庭 电话 ， 就 不 太 可 能 访问 到 上 班 的 人 。 如 果 你 只 对 接 电话 的 人 进行 访问 ， 就 
不 太 可 能 访问 到 与 别人 共享 一 个 号 码 的 人 。 


如 果 收 入 、 就 业 状 况 和 家 庭 人 口 等 因素 与 体重 相关 (确实 可 能 ) ， 那 么 你 的 调查 结果 就 会 受 
到 这 样 或 那样 的 影响 。 这 种 问题 是 抽样 过 程 的 属性 ， 因 此 称 为 抽样 偏 倩 (sampling bias ) 。 


抽样 过 程 也 可 能 受到 个 人 意愿 的 影响 。 这 也 是 一 种 抽样 偏 倚 。 有 些 人 可 能 拒绝 回答 调查 问 
题 ， 如 果 拒 绝 回 答 问 题 的 倾向 与 体重 有 关 ， 也 会 影响 调查 的 结果 。 


最 后 ， 如 果 你 只 是 询问 别人 的 体重 ， 而 不 进行 测量 ， 那 么 得 到 的 结果 可 能 是 不 准确 的 。 即 
便 调查 参与 者 很 愿意 回答 你 的 问题 ， 但 如 果 她 们 对 自己 的 真实 体重 不 满意 ， 也 有 可 能 会 
对 数字 进行 一 些 “ 美 化 ”， 更 何况 并 不 是 所 有 的 参与 者 都 那么 配合 。 这 些 都 属于 测量 误差 


(measurement error ) 。 















































































































































在 汇报 一 个 估计 值 时 ， 你 可 以 给 出 标准 误差 或 置信 区 间 ， 也 可 以 都 给 出 以 量化 抽样 误差 。 
但 是 ， 你 要 记 住 : 抽样 误差 只 是 误差 的 来 源 之 一 ， 而 且 通 常 并 不 是 最 大 的 误差 来 源 。 


8.5 ”指数 分 布 


让 我 们 再 玩 一 次 猜测 游戏 吧 。 我 在 想 一 个 分 布 。 这 是 一 个 指数 分 布 ， 样 本 如 下 : 


























[5.384, 4.493, 19.198, 2.790, 6.122, 12.844] 


你 猜 这 个 分 布 的 参数 4 是 多 少 ? 
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通常 ， 指 数 分 布 的 均值 是 14， 那 么 倒 推 一 下 ， 我 们 应 该 选择 : 





L= 1/x 


工 是 4 的 一 个 估计 量 。 这 个 估计 量 很 特别 ， 它 还 是 最 大 似 然 估计 量 (参见 http://wikipedia. 
org/wiki/Exponential_distribution#Maximum_likelihood) 。 因 此 ， 如 果 你 想 最 大 化 自己 猜 中 4 
的 几率 ， 就 应 该 选择 工 。 





但 是 ， 我 们 知道 当 存在 离 群 值 时 ，x 的 健壮 性 不 佳 ， 因 此 预期 7 也 具有 同样 的 问题 。 


我 们 可 以 选择 基于 样本 中 位 数 的 估计 量 。 指 数 分 布 的 中 位 数 是 In(2)X， 倒 推 一 下 ， 我 们 可 
以 定义 一 个 估计 量 : 











L,=1n(2)/m 
其 中 m 是 样本 的 中 位 数 。 
为 了 测试 这 两 个 估计 量 的 性 能 ， 我 们 可 以 对 抽样 过 程 进行 模拟 。 





def Estimate3(n=7, m=1000): 
Lam = 2 


means = [] 

medians = [] 

for _ in range(m): 
xs = np.random.exponential(1.0/lam, n) 
L=1/ np.mean(xs) 
Lm = math.Log(2) / thinkstats2.Median(xs) 
means.append(L) 
medians.append(Lm) 


print('rmse L', RMSE(means, lam)) 

print('rmse Lm', RMSE(medians, lam)) 
print('mean error L', MeanError(means, lam)) 
print('mean error Lm', MeanError(medians, lam)) 





以 4=2 运行 这 个 实验 ， 得 到 的 工 的 均 方 根 误差 为 1.1。 对 于 基于 中 位 数 的 估计 量 L,， 均 方 
根 误差 为 18。 从 这 个 实验 中 ， 我 们 无 法 得 知 艺 是否 使 均 方 误差 最 小 ， 但 是 至 少 看 起 来 志 
比 忆 ,更 接近 真实 值 。 


不 幸 的 是 ， 这 两 个 估计 量 似乎 都 是 偏 倚 的 。 工 的 均值 误差 为 0.33，L, 的 均值 误差 为 0.45， 
而 且 随 着 样本 量 m 的 增加 ， 二 者 的 均值 误差 都 不 会 趋 近 于 0。 














实际 上 ， 是 指数 分 布 均值 1 的 无 偏 佑 计量， 而 工 却 不 是 2 的 无 偏 估计 量 。 





8.6 ”练习 

你 可 以 复制 estimation.py， 以 此 副本 为 基础 进行 接 下 来 的 练习 。 本 章 练 习 的 参考 答案 位 于 
chap08soln.py 中 。 

。 练习 8.1 

本 章 ， 我 们 使 用 x 和 中 位 数 估计 yy， 并 发 现 x 的 均 方 误差 较 小 。 而 且 ， 我 们 还 使 用 了 5S 和 
5S4 -1 估计 o， 发 现 5 是 o 的 偏 倚 估 计量 ,而 S? _ | 是 无 偏 的 。 


请 进行 类 似 的 实验 ， 检 验 x 和 中 位 数 是 否 是 1 的 偏 倚 估 计 ， 并 检查 5 和 5s3 1 中 哪个 的 均 
方 误差 较 小 。 











。 练习 8.2 
假设 你 从 一 个 4=2 的 指数 分 布 中 抽取 了 n=10 的 样本 。 请 将 这 个 实验 模拟 1000 次 ， 绘 制 估 
计 值 工 的 抽样 分 布 。 请 计算 这 个 估计 值 的 标准 误差 及 其 90% 置信 区 间 。 


请 使 用 儿 个 不 同 的 值 重复 这 个 实验 ， 绘 制 标准 误差 与 的 关系 图 。 


。 练习 8.3 

在 冰球 和 足球 比赛 中 ， 进 球 的 时 间 间 隔 大 致 符合 指数 分 布 。 因 此 ， 你 可 以 通过 观察 一 个 球 
队 在 比赛 中 的 进 球 次 数 来 估计 进 球 得 分 率 。 这 个 估计 过 程 与 对 进 球 时 间 间 隔 进 行 抽样 略 有 
不 同 ， 让 我 们 看 看 具体 是 如 何 进行 的 。 


请 编写 一 个 函数 模拟 一 场 比赛 的 过 程 ， 以 平均 每 场 比 赛 的 得 分 率 lan 为 参数 ， 生 成 进 球 的 
时 间 间 隔 ， 直 到 总 时 间 超 过 一 场 比赛 的 时 长 ， 然 后 返回 得 分 数 。 


请 再 编写 一 个 函数 ， 模 拟 多 场 比赛 ， 保 存 tan 的 估计 值 ， 然 后 计算 这 些 值 的 均值 误差 和 均 
方 根 误差 。 


这 种 估计 方法 是 偏 倚 的 吗 ? 请 绘制 这 个 估计 值 的 抽样 分 布 和 90% 置信 区 间 。 这 个 估计 量 的 
标准 误差 是 多 少 ? 如 果 tan 的 值 增 加 ， 抽 样 误差 会 发 生 何 种 变化 ? 
8.7 术语 


。 估计 (estimation) 
从 样本 推导 出 分 布 参 数 的 过 程 。 




























































































。 估计 量 (estimator) 


用 于 估计 一 个 参数 的 统计 量 。 


。 均 方 误差 (mean squared error，MSE) 
对 估计 误差 的 度量 。 
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均 方 根 误差 (root mean squared error, RMSE) 
均 方 误差 的 平方 根 ， 能 够 更 有 意义 地 表示 — 典 型 误差 的 量 级 。 





最 大 似 然 估计 量 (maximum likelihood estimator，MLE) 
一 种 估计 量 ， 计 算 最 有 可 能 正确 的 点 估计 。 


十 计量 偏 侍 (bias of an estimator) 
在 重复 实验 中 ， 一 个 估计 量 高 于 或 低 于 参数 实际 值 的 平均 趋势 。 





抽样 误差 (sampling error) 
因为 样本 规模 有 限 以 及 随机 变化 而 导致 的 估计 错误 。 





柚 样 偏 佑 (sampling bias) 
因为 抽样 过 程 产生 的 样本 不 能 代表 总 体 而 导致 的 估计 误差 。 





测量 误差 (measurement error) 


因为 收集 或 记录 数据 不 准确 而 导致 的 估计 误差 。 


抽样 分 布 (sampling distribution) 
实验 重复 多 次 得 到 的 统计 量 分 布 。 





标准 误差 (standard error) 
一 个 估计 的 均 方 根 误差 ， 对 抽样 误差 (而 非 其 他 误差 源 ) 导致 的 波动 进行 量化 。 





置信 区 间 (confidence interval) 
一 个 区 间 ， 代 表 实 验 重 复 多 次 时 预期 的 估计 量 欧 围 。 








第 9 章 


假设 检验 





本 章 代 码 位 于 hypothesis.py 中 。 前 言 介绍 了 如 何 下 载 和 使 用 本 书 代码 。 


9.1 经 典 假设 检验 


在 探索 NSFG 数据 的 过 程 中 ， 我 们 看 到 了 几 个 “直观 效应 ”， 其 中 包括 第 一 胎 和 其 他 胎 的 
区 别 。 到 目前 为 止 ， 我 们 看 到 的 只 是 表面 现象 ， 本 章 则 将 对 这 些 效应 进行 检验 。 


我 们 想 解 答 的 基本 问题 是 ， 在 一 个 样本 中 观察 到 的 效应 是 否 也 会 出 现在 更 大 规模 的 总 体 
中 。 例 如 ， 在 NSFG 样本 中 ， 第 一 胎 和 其 他 胎 的 妊娠 期 长 度 不 同 ， 我 们 想 了 解 这 种 效应 是 
真实 反映 了 美国 妇女 的 生育 情况 ， 还 是 偶然 出 现在 这 个 样本 中 而 已 。 























这 个 问题 有 好 几 种 表示 方法 ， 包 括 Fisher 原 假设 检验 、Neyman-Pearson 决策 理论 和 贝 叶 斯 
推理 ,大 部 分 人 在 实践 中 使 用 的 都 是 这 3 种 方法 。 这 里 我 要 介绍 的 是 这 些 方法 的 一 个 子 集 ， 
称 为 经 典 假 设 检 验 (classical hypothesis testing ) 。 




















典 假 设 检验 的 目的 是 回答 一 个 同 题 :“ 给 定 一 个 样本 和 一 个 直观 效应 ， 这 个 效应 是 偶然 
现 的 概率 为 多 少 ? ”回答 这 个 问题 的 步骤 如 下 。 


压 溢 





。 第 一 步 ， 选 择 一 个 检验 统计 量 (test statistic) ， 对 直观 效应 进行 量化 。 在 全 国家 庭 增长 
调查 统计 示例 中 ， 直 观 效应 是 第 一 胎 和 其 他 胎 的 妊娠 时 间 存 在 差异 ， 因 此 我 们 很 自然 地 
选择 这 两 个 群 组 的 均值 差 作为 检验 统计 量 。 














注 1: 要 了 解 贝 叶 斯 推理 ， 请 参考 同系 列 的 Think Bayes 一 书 。 
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第 二 步 ， 定 义 原 假设 (null hypothesis)。 原 假设 是 系统 的 一 个 模型 ， 所 基于 的 假设 是 直 


观 效 应 不 为 真 。 在 全 国家 庭 增长 调查 统计 示例 中 ， 原 假设 是 第 一 胎 和 其 他 胎 没 有 区 别 ， 








即 两 个 群 组 的 妊娠 时 间 具 有 相同 的 分 布 。 


生生 一 


朱 二 上 少 ， 
家 庭 增长 调查 统计 示例 中 ， 我 们 将 计算 两 个 群 组 均值 的 实际 差异 ， 然 后 计算 在 原 假设 为 











计算 产值 (p-value)。P 值 是 在 原 假设 为 真 时 ， 直 观 效 应 出 现 的 概率 。 在 全 国 





真 的 情况 下 ， 这 个 差异 等 于 或 大 于 实际 值 的 概率 。 




















最 后 ， 解 释 结果 。 如 果 p 值 很 低 ， 那 么 我 们 称 这 个 效应 是 统计 显著 (statistically 
significant) 的 ， 即 不 太 可 能 偶然 发 生 。 在 这 种 情况 下 ， 我 们 推断 ， 这 个 效应 在 大 规模 
总 体 中 出 现 的 可 能 性 更 大 。 


上 述 过 程 的 逻辑 与 反 证 法 类 似 。 要 证 明 一 个 数学 陈述 A， 你 可 以 暂时 假设 A 不 为 真 ， 如 果 


这 个 假设 推导 出 了 了 矛盾 结果 ， 那 么 就 可 以 断定 A 确实 为 真 。 
同样 ， 为 了 检验 一 个 如 “这 个 效应 为 真 ”的 假设 ， 我 们 暂时 假设 这 个 效应 不 为 真 ， 即 原 假 
设 。 基 于 这 个 假设 ,我 们 计算 这 个 直观 效应 的 概率 ， 即 bp 值 。 如 果 p 值 很 低 ， 我 们 就 可 以 
断定 原 假设 不 太 可 能 为 真 。 





























9.2 假设 检验 


thinkstats2 提供 一 个 类 HypothesisTest， 表 示 一 个 经 典 假设 检验 结果 ， 定 义 如 下 : 


HypothesisTest 是 一 个 抽象 父 类 ， 完 整定 义 了 一 些 方法 ， 并 为 其 他 方法 预 留 接 


def 


def 


def 


def 


def 

















class HypothesisTest(object): 


_init (self, data): 

self.data = data 

self.MakeModel() 

self.actual = self.TestStatistic(data) 


pValue(self, iters=1000): 
self.test_stats = [self.TestStatistic(self.RunModel()) 
for _ in range(iters)] 


Count = sum(1 for x in self.test stats if x >= self.actual) 
return count / iters 


TestStatistic(self, data): 
raise UnimplementedMethodException() 


MakeModel(self): 
pass 


RunModel(self): 
raise UnimplementedMethodException() 




















口 。 基 于 


HypothesisTest 的 子 类 继承 了 __init_ 和 PValue， 实现 了 TestStatistic 和 RunModeL， 可 
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选择 是 否定 义 MakeModel。 








_init 可 以 以 任何 适宜 数据 为 参数 。__init__ 调用 MakeModel 构建 原 假设 ， 然 后 将 数据 
传递 给 TestStatistics， 从 而 计算 样本 中 的 效应 规模 。 











方法 PValue 计算 原 假设 条 件 下 直观 效应 的 概率 。PValue 的 参数 iters 是 运行 模拟 的 次 
数 。PValue 第 一 行 生 成 模拟 数据 ， 计 算 检验 统计 量 并 存放 在 test_stats 中 ， 返 回 的 结果 是 
test_stats 中 等 于 或 超过 检验 统计 量 的 观测 值 seLf.actual 的 元 素 所 占 的 比例 。 








采 














举 个 简单 的 例子 :， 假 设 我 们 投掷 一 枚 硬币 250 次 ， 结果 得 到 140 次 正面 和 110 次 反面 。 
于 这 个 结果 ， 我 们 怀疑 这 个 硬币 质地 不 均匀 ， 落 地 时 正面 朝 上 的 可 能 性 更 大 。 为 了 检验 这 
个 假设 ,我们 计算 出 当 硬 币 质 地 均匀 时 出 现 这 种 结果 的 概率 。 




















class CoinTest(thinkstats2.HypothesisTest): 


def TestStatistic(self, data): 
heads, tails = data 
test_stat = abs(heads - tails) 
return test_stat 


def RunModel(self): 
heads, tails = self.data 
n = heads + tails 
sample = [random.choice('HT') for _ in range(n)] 
hist = thinkstats2.Hist(sample) 
data = hist['H'], hist['T'] 
return data 





参数 data 是 一 对 整数 ， 即 结果 为 正面 和 反面 的 次 数 。 检 验 统计 量 是 两 者 的 差 值 ， 因 此 
seLf .actual 为 30。 











RunModel 在 假设 硬币 质地 均匀 的 条 件 下 模拟 投掷 硬币 的 实验 。RunModet 生成 包含 250 次 投 
据 结 果 的 样本 ， 使 用 Hist 计算 结果 中 正面 和 反面 的 数量 ， 返 回 一 对 整数 值 。 






































现在 ， 我 们 只 需要 实例 化 CoinTest 并 调用 PValue 就 可 以 了 。 





ct = CoinTest((140, 110)) 
pvatLue = ct.PValue() 




















吉 果 约 为 0.07。 也 就 是 说 ， 如 果 硬 币 是 质地 均匀 的 ， 我 们 预期 有 7% 的 可 能 性 看 到 正面 和 
面 的 差 值 达到 30 的 情况 。 


\ 



































反 
我 们 应 该 如 何 解 释 这 一 结果 呢 ? 按照 惯例 ，5% 是 统计 显著 的 闷 值 。 如 果 p 值 小 于 5%， 那 
么 我 们 认为 该 效应 是 显著 的 ， 否 则 不 是 。 





注 1: 改编 自 MacKay 的 Information Theory, Inference, and Learning Algorithms，2003。 
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但 是 5% 这 个 值 是 随意 设 定 的 ， 而 且 (我 们 稍 后 将 看 到 ) p 值 依赖 于 检 测 统 计量 的 选择 和 
原 假设 模型 。 因 此 ， 我 们 不 应 该 将 p 值 看 作 一 个 精确 的 度量 。 











我 建议 你 按照 重要 性 顺序 进行 解释 : 如果 p 值 小 于 1%， 那 么 效应 不 太 可 能 是 随机 产生 的 ， 
如 果 p 值 大 于 10%， 那 么 效应 可 以 合理 解释 为 随机 现象 。 位 于 1% 和 10% 之 间 的 p 值 应 看 
作 边缘 值 。 因 此 ， 在 这 个 示例 中 ， 我 认为 这 些 数据 没有 提供 足够 的 证 据 ， 无 法 证 明 硬 币 是 
否 质地 均匀 。 


9.3 检验 均值 差 
人 们 最 常 检验 的 效应 之 一 是 两 组 样本 的 均值 差 。 在 全 国家 庭 增 长 调查 数据 中 ， 我 们 看 到 
第 一 胎 比 其 他 胎 的 妊娠 时 间 稍 长 ， 出 生体 重 略 轻 。 现 在 ， 我 们 要 看 看 这 些 效应 是 否 统 计 


i 
显 车 。 






























































这 些 例子 的 原 假设 是 两 组 样本 的 分 布 相同 。 对 这 个 原 假设 建 模 ， 一 个 方法 是 置换 
(permutation) ， 即 从 两 组 中 取 值 混 排 ， 把 两 个 组 当成 一 个 大 组 。 


class DiffMeansPermute(thinkstats2.HypothesisTest): 


def TestStatistic(self, data): 
group1，group2 = data 
test_stat = abs(group1.mean() - group2.mean()) 
return test_stat 


def MakeModel(self): 
group1，group2 = self.data 
self.n, self.m = len(group1), len(group2) 
self.pool = np.hstack((group1, group2)) 


def RunModel(self): 
np.random.shuffle(self.pool) 
data = self.pool[:self.n], self.pool[self.n:] 
return data 


data 是 一 对 序列 ， 每 组 一 个 序列 。 检 验 统 计量 是 两 组 序列 的 均值 差 。 
MakeModel 记录 了 两 个 组 的 大 小 n 和 m， 将 两 组 合并 形成 一 个 NumPy 数组 seLf .poot。 





RunModel 将 两 组 合并 后 的 数值 混 排 ， 分 为 大 小 为 n 和 的 两 个 组 ， 以 此 模拟 原 假 设 。 按 照 
惯例 ，RunModet 返回 的 值 与 观察 值 的 格式 相同 。 

















为 了 测试 妊娠 时 间 的 差异 ， 我 们 运行 如 下 代码 : 


live, firsts, others = first.MakeFrames() 

data = firsts.prglngth.values, others.prglngth.values 
ht = DiffMeansPermute(data) 

pvaLue = ht.PValue() 





A 
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MakeModel 读 取 全 国家 庭 增长 调查 数据 ， 返 回 代表 所 有 成 功 生 产 、 第 一 胎 及 其 他 胎 的 
DataFrame。 我 们 将 妊娠 时 间 数 据 抽取 为 NumPy 数组 ， 传 递 给 DiffMeansPermute， 计 算出 
p 值 。 计 算 结 果 约 为 0.17， 即 我 们 预期 有 17% 的 可 能 性 看 到 妊娠 时 间 差 达到 所 观测 的 差 
值 。 因 此 ， 这 个 效应 不 是 统计 显著 的 。 




















HypothesisTest 提供 方法 PLotCdf ， 绘 制 检验 统计 量 的 分 布 ， 并 用 一 条 灰 线 标识 观察 到 的 
效应 规模 。 








ht.PLotCdf() 
thinkpLot .Show(xLabeL='test statistic', 
ylabel='CDF') 





图 9-1 展示 了 绘制 结果 。CDF 与 观察 到 的 差 值 在 0.83 ( 即 p 值 0.17 的 补 ) 处 相交 。 





置换 检验 

















0 1 1 1 1 
0.00 0.05 0.10 0.15 0.20 0.25 


均值 差 ( 周 ) 











图 9-1: 原 假设 下 ， 妊 娠 期 时 间 均 值 差 CDF 


如 果 我 们 使 用 新 生 儿 体重 数据 进行 同样 的 分 析 ， 得 到 的 bp 值 为 0。 运 行 1000 次 模拟 ,均值 
差 都 没有 达到 观察 到 的 差 值 0.12 磅 。 因 此 ， 我 们 将 报告 p<0.001， 得 出 的 结论 为 ， 新 生 儿 
体重 的 差 值 是 统计 显著 的 。 


9.4 其 他 检验 统计 量 


你 应 当 根据 需要 解决 的 实际 问题 选择 检验 统计 量 。 例 如 ， 如 有 果 了 研究 第 一 胎 的 妊娠 时 间 是 否 
与 其 他 胎 不 同 ， 那 么 检验 均值 差 就 是 很 好 的 选择 ， 我 们 在 前 一 节 中 正 是 这 么 做 的 。 
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如 果 我 们 有 理由 认为 第 一 胎 可 能 出 生 较 晚 ， 那 么 就 不 应 该 检验 差 值 ， 而 是 使 用 另 一 个 的 检 
验 统 计量 。 





class DiffMeansOneSided(DiffMeansPermute ) : 


def TestStatistic(self, data): 

group1，group2 = data 

test_stat = group1.mean() - group2.mean() 

return test_stat 
DiffMeansOneSided 从 父 类 DiffMeansPermute 继承 了 MakeModel 和 RunModet 方法 ， 唯 一 的 
不 同 是 Teststatistic 方法 计算 的 是 组 一 均值 减 去 组 二 均值 ， 没 有 取 绝 对 值 。 这 种 检验 只 
检查 差 值 分 布 的 一 侧 ， 因 此 称 为 单 侧 的 (one-sided) 检验 。 之 前 的 检验 使 用 差 值 分 布 的 两 
侧 ， 因 而 称 为 双 侧 的 (two-sided) 检验 。 


这 一 版 本 测试 得 到 的 p 值 为 0.09。 单 侧 检 验 的 p 值 通常 约 为 双 侧 检验 p 值 的 一 半 ， 但 会 受 
分 布 形状 的 影响 。 

我 们 的 单 侧 假 设 为 第 一 胎 出 生 较 晚 ， 这 个 假设 比 双 侧 假设 更 为 具体 ， 因 此 p 值 较 小 。 但 即 
便 对 于 这 个 更 具体 的 假设 ， 差 值 也 不 是 统计 显著 的 。 

我 们 可 以 使 用 同样 的 框架 检验 标准 差 的 差 值 。 在 3.3 节 中 ， 有 一 些 证 据 显 示 第 一 胎 更 可 能 
提早 或 推迟 出 生 ， 较 少 准 时 。 因 此 ， 我 们 可 以 假设 第 一 胎 妊 娠 时 间 的 标准 差 更 高 。 检 验方 
法 如 下 : 



















































































class DiffStdPermute(DiffMeansPermute ) : 


def TestStatistic(self, data): 
group1，group2 = data 
test_stat = group1l.std() - group2.std() 
return test_stat 


我 们 的 假设 是 第 一 胎 的 标准 差 更 高 ， 而 不 仅仅 是 不 同 ， 因 此 这 个 检验 是 单 侧 检验 。 检 验 得 
到 的 p 值 为 0.09， 不 是 统计 显著 的 。 


9.5 检验 相关 性 

这 个 框架 也 可 以 检验 相关 性 。 例 如 ， 在 全 国家 庭 增 长 调查 数据 集中 ， 新 生 儿 体重 和 母亲 年 
龄 的 相关 性 约 为 0.07。 年 龄 较 大 的 母亲 似乎 产 下 的 孩子 更 重 。 但 是 ， 这 种 效应 是 偶然 产生 
的 吗 ? 





























我 选择 Pearson 相关 性 作为 检验 统计 量 ， 但 Spearman 相关 性 也 是 很 好 的 选择 。 如 果 我 们 有 
理由 预期 正 相 关 ， 那 么 就 可 以 进行 单 侧 检 验 。 但 由 于 我 们 并 没有 任何 相关 证 据 ， 因 此 还 是 
选择 使 用 相关 性 的 绝对 值 进 行 双 侧 检验 。 
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检验 的 原 假 设 是 母亲 年 龄 和 新 生 儿 体重 之 间 没 有 相关 性 。 我 们 可 以 将 观察 值 混 排 进行 模 
拟 ， 在 这 个 模拟 世界 中 ， 母 亲 年 龄 和 新 生 儿 体重 的 分 布 仍 保持 不 变 ， 但 这 两 个 变量 之 间 没 
有 相关 性 。 


























class Correlationpermute(thinkstats2.HypothesisTest): 


def TestStatistic(self, data): 
xs, ys = data 
test_stat = abs(thinkstats2.Corr(xs, ys)) 
return test_stat 


de 


re 


RunModel(self): 

xs, ys = self.data 

xs = np.random.permutation(xs) 
return xs, ys 





data 是 一 对 序列 。TestStatistic 计算 Pearson 相关 性 的 绝对 值 。RunModel 将 xs 进行 混 排 ， 
返回 模拟 数据 。 


下 面 一 段 代 码 读 取 数 据 并 运行 检验 : 

















了 








live, firsts, others = first.MakeFrames() 

Live = live.dropna(subset=['agepreg', 'totalwgt_ lb']) 
data = live.agepreg.values, live.totalwgt_lb.values 
ht = Correlationpermute(data) 

pvaluyue = ht.PValue() 


我 使 用 指定 subset 参数 的 dropna 方法 ， 去 除 缺 失 所 需 任 一 变量 的 数据 行 。 


实际 数据 的 相关 性 为 0.07。 检 验 计算 得 到 的 bp 值 为 0。 在 1000 次 重复 实验 中 ， 模 拟 得 到 的 
最 大 相关 性 为 0.04。 因 此 ， 虽 然 观察 到 的 变量 相关 性 很 小 ， 但 这 种 相关 性 是 统计 显著 的 。 

















这 个 示例 提醒 我 们 ,“ 统 计 显著 ”并 不 一 定 说 明 一 个 效应 是 重要 的 ， 或 者 在 实践 中 是 显著 
的 。“ 统 计 显 着 ”只 说 明 一 个 效应 不 太 可 能 是 偶然 产生 的 。 


9.6 检验 比例 


假设 你 经 营 一 家 赌场 ， 怀 疑 一 位 顾客 使 用 作 痊 骨 子 ， 也 就 是 说 这 个 骨 子 经 过 处 理 ， 更 容易 
撕 出 其 中 一 面 。 你 抓 住 这 位 受 怀疑 的 作 紫 者 ， 没 收 了 骨 子 ， 但 是 还 必须 证 明 这 个 角子 有 问 
题 。 你 将 这 个 骨 子 拨 了 60 次， 得 到 如 下 结果 : 























点 数 |1 12 |3 14 15 16 
8 |11 





起 
EE 
Oo 
Ro 
一 
Ro 
un 









































你 希望 的 结果 是 每 个 点 数 平均 出 现 10 次 。 在 这 个 数据 集中 ，3 出 现 的 次 数 较 多 ，4 较 少 。 
是 ， 这 些 差异 是 统计 显著 的 吗 ? 
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为 了 检验 这 个 假设 ， 我 们 可 以 计算 出 每 个 值 的 预期 频数 、 预 期 频数 与 观察 频数 的 差 值 ， 以 
及 差 值 绝对 值 的 和 。 在 这 个 示例 中 ， 我 们 预期 60 次 投掷 里 ， 般 子 的 每 一 面 都 出 现 10 次 ， 
观察 值 与 预期 值 的 差 值 为 -2、-1、9、-5、-2 和 1， 差 值 绝 对 值 的 和 为 20。 完 全 偶然 出 现 
这 么 大 差 值 的 概率 是 多 少 呢 ? 









































下 面 这 个 版 本 的 HypothesisTest 回答 了 这 个 问题 。 





class DiceTest(thinkstats2.HypothesisTest): 


def TestStatistic(self, data): 
observed = data 
n = sum(observed) 
expected = np.ones(6) * n / 6 
test_stat = Sum(abs(observed - expected)) 
return test_stat 


def RunModel(self): 
n = sum(self.data) 
values = [1, 2, 3, 4, 5, 6] 
rolls = np.random.choice(values, Nn, replace=True) 
hist = thinkstats2.Hist(rolls) 
freqs = hist.Freqs(vaLues) 
return freqs 


代码 中 使 用 的 数据 表示 一 列 频数 。 观 察 值 为 [8， 9， 19， 5， 8， 11] ， 预 期 频数 都 是 
10。 检 验 统计 量 是 差 值 绝对 值 的 和 。 


原 假 设 是 人 般 子 没有 问题 ， 因 此 我 们 从 values 中 随机 抽取 样本 进行 模拟 。RunModel 使 用 
Hist 计算 和 返回 频数 列表 。 


计算 得 到 的 p 值 为 0.13。 也 就 是 说 ， 如 果 山 子 没有 问题 ， 我 们 预期 检验 统计 量 达到 或 超过 
观察 值 的 概率 为 13%。 因 此 ， 这 个 直观 效应 不 是 统计 显著 的 。 


9.7 卡 方 检验 


在 前 一 他， 我 们 使 用 偏差 总 和 作为 检测 统计 量 。 但 是 ， 检 测 比例 时 ， 人 们 更 多 使 用 的 是 卡 
方 统计 量 。 






































区 三 > 


其 中 O, 是 观察 到 的 频数 ，E, 是 预期 频数 。 计 算 卡 方 统 计量 的 Python 代码 如 下 : 














class DiceChiTest(DiceTest): 


def TestStatistic(self, data): 





A 


104 | 第 9 章 


observed = data 

n = sum(observed) 

expected = np.ones(6) * n / 6 

test_stat = sum((observed - expected)**2 / expected) 
return test_stat 





将 差 值 求 平方 (而 不 是 取 绝 对 值 ) 使 大 偏差 值 的 权重 更 大 。 除 以 expected 可 以 将 偏差 标准 
化 ， 虽 然 在 这 个 例子 中 预期 频数 都 相同 ， 这 种 做 法 没有 什么 效果 。 


使 用 卡 方 统计 量 计算 的 p 值 为 0.04， 明 显 小 于 使 用 偏差 和 的 值 0.13。 如 果 我 们 坚持 使 用 
5% 的 国 值 ， 就 会 认为 受 检测 的 效应 是 统计 显著 的 。 但 是 ， 将 这 两 个 检验 放 在 一 起 考虑 ， 
我 认为 结果 并 不 明确 。 我 无 法 排除 骨 子 有 问题 的 可 能 性 ， 也 不 能 肯定 骨 子 一 定 有 问题 。 


这 个 示例 说 明了 一 个 重要 问题 : p 值 取决 于 检验 统计 量 的 选择 和 原 假设 模型 ， 有 时 这 些 因 
素 决 定 了 一 个 效应 是 否 统计 显著 。 


9.8 ”再 谈 第 一 胎 

我 们 在 本 章 稍 前 部 分 研究 了 第 一 胎 和 其 他 胎 的 妊娠 时 间 ， 认 为 两 组 样本 均值 和 标准 差 的 
直观 差异 不 是 统计 显著 的 。 但 在 3.3 节 ， 我 们 看 到 了 妊娠 时 间 分 布 的 几 个 直观 差异 ， 在 
35~43 周 范 围 内 差异 尤为 明显 。 要 判断 这 些 差异 是 否 统 计 显 著 ， 我 们 可 以 使 用 基于 卡 方 统 
计量 的 检验 。 





















































下 面 一 段 代码 结合 了 前 几 个 示例 的 功能 。 











class PregLengthTest(thinkstats2.HypothesisTest): 


def MakeModel(self): 
firsts, others = self.data 
self.n = len(firsts) 
self.pool = np.hstack((firsts, others)) 


pmf = thinkstats2.Pmf(self.pool) 
seLf.vaLues = range(35, 44) 
seLf .expected_probs = np.array(pmf.Probs(self.values)) 


def RunModel(self): 
np.random.shuffle(self.pool) 
data = self.pool[:self.n], self.pool[self.n:] 
return data 


检验 的 数据 为 两 组 妊娠 时 间 值 。 我 们 使 用 的 原 假设 是 两 个 样本 来 自 同 一 分 布 。MakeModel 
使 用 hstack 将 两 个 样本 混合 在 一 起 ， 对 分 布 建 模 。RunModel 随后 将 混合 样本 打 乱 重 排 , 分 
为 两 部 分 ， 生 成 模拟 数据 。 


MakeModel 还 定义 了 检验 使 用 的 周 数 范围 vatues， 以 及 混合 分 布 中 每 个 值 的 概率 expected_probs。 
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本 


一 段 代 码 计算 检验 统计 量 。 











# class PregLengthTest: 


def TestStatistic(self, data): 
firsts, others = data 
stat = self.ChiSquared(firsts) + self.ChiSquared(others) 
return stat 


def ChiSquared(self, lengths): 
hist = thinkstats2.Hist(lengths) 
observed = np.array(hist.Freqs(self.values)) 
expected = self.expected probs * len(lengths) 
stat = sum((observed - expected)**2 / expected) 
return stat 


TestStatistic 计算 第 一 胎 和 其 他 胎 的 卡 方 统计 量 ， 并 求 和 。 

Chisquared 以 一 个 妊娠 时 间 序 列 为 参数 ， 计 算 直 方 图 及 对 应 self.values 的 频数 列表 
observed， 并 将 预期 概率 expected_probs 乘 以 样本 大 小 ， 计 算出 预期 频数 列表 ， 返 回 值 为 
卡 方 统 计量 stat。 

全 国家 庭 增长 调查 数据 的 总 卡 方 统计 量 为 102， 这 个 数字 本 身 没有 什么 意义 。 但 在 原 假设 
下 ，1000 次 重复 产生 的 最 大 验证 统计 量 是 32。 对 比 之 下 ， 我 们 认为 观察 到 的 卡 方 统计 量 
在 原 假设 下 不 太 可 能 出 现 ， 因 此 这 个 直观 效应 是 统计 显著 的 。 




















这 个 示例 说 明 卡 方 检验 存在 一 个 局 限 : 卡 方 检验 (chi-squared test) 可 以 证 明 两 个 群 组 之 间 
存在 差异 ， 但 不 能 揭示 这 个 差异 是 什么 。 





























在 经 典 假设 检验 中 ， 如 果 疡 值 低 于 某 个 国 值 (常用 阔 值 为 5%)， 那 么 我 们 就 认为 一 个 效应 

是 统计 显著 的 。 这 个 过 程 产生 了 两 个 问题 。 

。 如 果 一 个 效应 的 确 是 偶然 产生 的 ， 那 么 我 们 将 它 误 判 为 统计 显著 的 概率 是 多 少 ? 这 个 概 
率 就 是 误 报 率 (false positive rate)。 

。 如 果 一 个 效应 不 是 偶然 的 ,那么 假设 检验 失败 的 概率 是 多 少 ? 这 个 概率 称 为 漏 报 率 (false 


negative rate ) 。 

















相对 而 言 ， 漏 报 率 比 较 容易 计算 。 如 果园 值 为 5%， 那 么 漏 报 率 就 是 5%， 理 由 如 下 。 





。 如 果 效 应 不 为 真 ， 那 么 原 假设 成 立 ， 因 此 ， 通 过 模拟 原 假 设 就 可 以 计算 出 检验 统计 量 的 
分 布 。 我 们 将 这 个 分 布 称 为 CDFr。 

。 重复 运行 实验 ， 每 次 得 到 一 个 来 自 CDF; 的 测试 统计 量 t。 随 后 ， 我 们 计算 出 p 值 。 p 值 
是 CDF; 中 的 随机 值 大 于 t 的 概率 ， 即 为 1 -CDFi(D)。 
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。 当 CDEF;(D 大 于 95%， 即 1 大 于 第 95 百 分 秩 时 , p 值 小 于 5%。 而 CDF; 中 随机 抽取 的 
值 大 于 第 95 百 分 秩 的 概率 为 多 少 呢 ? 答案 是 5%。 

















因此 ， 如 果 你 进行 一 个 国 值 为 5% 的 假设 检验 ，20 次 里 会 有 1 次 漏 报 。 


9.10 功效 

误 报 率 受 实际 效应 大 小 的 影响 ， 而 通常 我 们 无 法 得 知 实际 效应 的 大 小 ， 因 此 误 报 率 较 难 计 
算 。 一 个 办 法 是 计算 一 个 假定 效应 大 小 的 误 报 率 。 

举 个 例子 ， 如 果 我 们 假设 观测 到 的 组 间 差 异 是 准确 的 ， 那 么 可 以 以 观测 样本 为 总 体 模型 ， 
使 用 模拟 数据 运行 假设 检验 。 

















def FalseNegRate(data, num_runs=100): 
group1, group2 = data 
count = 0 


for i in range(Cnum_runs ) : 
sampLe1 = thinkstats2.ResampLe(group1) 
sample2 = thinkstats2.ResampLe(group2) 


ht = DiffMeansPermute((sampLe1，sampLe2)) 
pvaLue = ht.PValue(iters=101) 
if pvaLue > 0.05: 

count += 1 


return count / num_runs 


FalseNegRate 方法 的 参数 data 是 两 个 序列 ， 每 组 一 个 。 每 次 循环 从 两 组 中 各 抽取 一 个 随机 
样本 ， 运 行 假 设 检验 ， 以 此 模拟 一 次 实验 ， 然 后 检查 检验 结果 ， 计 算 误 报 次 数 。 


Resample 方法 以 一 个 序列 为 参数 ， 使 用 放 回 抽样 ， 从 中 抽取 相同 长 度 的 样本 。 























def Resample(xs): 
return np.random.choice(xs, len(xs), replace=True) 


检验 妊娠 时 间 的 代码 如 下 : 
live, firsts, others = first.MakeFrames() 


data = firsts.prglngth.values, others.prglngth.values 
neg_rate = FaLseNegRate(data) 








结果 约 为 70%。 这 个 结果 说 明 ， 如 果 妊 娠 时 间 均 值 的 实际 差异 为 0.78 周 ， 那 么 我 们 预期 ， 
如 有 果 使 用 这 个 规模 的 样本 进行 实验 ， 结 果 有 70% 的 可 能 性 为 误 报 。 


人 们 经 常用 另 一 种 方式 描述 这 个 结果 : 如 果实 际 差 异 为 0.78 周 ， 那 么 我 们 预期 检验 通过 的 
可 能 性 只 有 30%。 这 个 “正确 通过 率 ” 称 为 检验 的 功效 (power)， 有 时 也 称 为 “敏感 度 ” 
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(sensitivity)。 这 个 值 反映 了 一 个 检验 检测 出 指定 大 小 效应 的 能 力 。 


在 这 个 示例 中 ， 这 个 检验 结果 通过 的 可 能 性 只 有 30% (假设 实际 差异 为 0.78 周 )。 一 
般 说 来 ， 我们 认为 80% 的 功效 是 可 接受 的 ， 因 此 示例 中 的 检验 属于 “ 低 功效 的 ” 


( underpowered Da 

















通常 ， 假 设 检验 失败 并 不 说 明 两 个 群 组 之 间 不 存在 差异 ， 而 是 说 ， 如 果 差异 的 确 存 在 的 
话 ， 这 个 差异 太 小 ， 以 至 于 无 法 在 这 种 规模 的 样本 中 检测 到 。 


9.11 复 现 
严格 说 来 ， 我 在 本 章 演示 的 假设 检验 过 程 并 非 最 佳 实践 。 


首先 ， 我 进行 了 多 重 检验 。 如 果 你 运行 一 个 假设 检验 ， 那 么 误 报 的 可 能 性 约 为 /20， 还 在 
可 接受 范围 内 。 但 是 ， 如 有 果 运 行 20 个 检验 ， 那 么 在 大 多 数 情况 下 ， 你 至 少 应 该 预期 得 到 1 
次 误 报 。 

其 次 ， 我 使 用 同一 个 数据 集 进 行 探索 和 检验 。 如 果 你 对 一 个 大 数据 集 进 行 探索 性 研究 ， 发 
现 了 一 个 惊人 的 效应 ， 然 后 又 检验 这 个 效应 是 否 显著 ， 结 果 十 有 八 九 会 是 误 报 。 










































































要 弥补 多 重 检验 的 问题 ， 你 可 以 调整 疡 值 的 装 值 (参见 https://en.wikipedia.org/wiki/Holm- 
Bonferroni_method) 。 你 也 可 以 选择 将 数据 分 区 ， 一 部 分 数据 用 来 探索 ， 另 一 部 分 用 来 检 
验 ， 如 此 ， 上 面 提 到 的 问题 都 可 以 得 到 解决 。 


在 某 些 领域 ， 这 些 弥补 或 解决 方法 是 必须 采取 的 ， 或 者 至 少 是 受到 鼓励 的 。 但 是 我 们 通常 
也 可 以 通过 重 现 别人 发 表 的 结果 ， 间 接 解决 这 些 问 题 。 通 常 ， 人 们 将 报告 某 个 新 发 现 的 第 
一 篇 论文 视 为 探索 性 的 ， 使 用 新 数据 复 现 该 结果 的 后 续 论 文 则 为 验证 性 的 。 


实际 上 ， 我 们 的 确 有 机 会 复 现 本 章 的 结果 。 本 书 第 一 版 使 用 的 是 全 国家 庭 增长 调查 的 第 6 
周期 数据 ， 发 布 于 2002 年 。 在 2011 年 10 月 ， 疾 病 控制 和 预防 中 心 发布 了 基于 2006~2010 
年 调查 的 附加 数据 。nsfg2.py 中 包含 读 取 和 清洗 这 些 数据 的 代码 。 在 这 个 新 数据 集中 : 


。 妊娠 时 间 均 值 差 为 0.16 周 ，p< 0.001， 是 统计 显著 的 (原始 数据 中 均值 差 为 0.078 周 ) ， 
。 新 生 儿 体重 的 差 值 为 0.17 磅 ，p< 0.001 (原始 数据 中 差 值 为 0.12 磅 ) ， 

。 新 生 儿 体重 与 母亲 年 龄 之 间 的 相关 性 为 0.08，p< 0.001 (原始 数据 中 相关 性 为 0.07) ; 

。 卡 方 差 检验 结果 p< 0.001， 是 统计 显著 的 (原始 数据 中 也 是 如 此 )。 


总 之 ， 原 始 数据 中 所 有 统计 显著 的 效应 ， 在 新 数据 集中 都 得 到 了 复 现 。 此 外 ， 妊 娠 时 间 差 
值 在 原始 数据 中 不 显 若 ， 在 新 数据 集中 这 个 差 值 变 大 ， 由 不 显著 变 为 显著 。 












































9.12 练习 


本 章 练习 的 参考 答案 位 于 chap09soln.py 中 。 


练习 9.1 





随 着 样本 规模 变 大 ， 假 设 检验 的 功效 也 会 增加 ， 即 在 效应 为 真 时 检验 通过 的 可 能 性 更 大 。 


反 过 来 ， 随 着 样本 规模 变 小 ,上 











为 了 对 此 进行 调查 ， 请 使 用 全 国家 庭 增长 调查 数据 的 不 同 子 集 
用 thinkstats2.SampLeRows， 从 DataFrame 中 随机 选取 一 个 数据 集 。 


中 便 效应 为 真 ， 检 验 通过 的 可 能 中 


生 也 会 变 小 。 


运行 本 章 的 检验 。 你 可 以 使 


如 果 样 本 规模 变 小 ， 这 些 检验 的 p 值 会 如 何 变化 ?检验 能 够 通过 的 最 小 样本 规模 为 多 少 ? 





练习 9.2 





员 随 机 分 配 到 两 个 组 中 。 


另 一 个 方法 是 使 用 样本 估计 总 体 分 布 ， 然 后 从 这 个 分 布 中 抽取 随机 样本 。 这 一 过 程 称 为 重 
抽样 resampling)。 重 抽样 有 儿 种 实现 方法 ， 最 简单 的 是 对 观测 值 进 行 放 回 抽样 (如 9.10 
市 所 示 )。 


请 编写 一 个 DiffMeansResample 类 ,继承 DiffMeansPermute， 村 








在 9.3 市 ,我们 使 用 置换 对 原 假设 进行 了 模拟 ， 即 用 观测 值 代表 整个 总 体 ， 将 总 体 中 的 成 





置换 ， 而 是 实现 重 抽样 。 
请 使 用 这 个 方法 ， 检 验 妊 娠 时 间 和 新 生 儿 体重 的 差 值 。 新 模型 对 结果 有 何 影响 ? 


9.13 术语 


假设 检验 (hypothesis testing) 
判断 一 个 直观 效应 是 否 统计 显著 的 过 程 。 





检验 统计 量 (test statistic) 
用 于 量化 效应 规模 的 统计 量 。 





原 假 设 (null hypothesis) 
一 个 系统 模型 ， 假 设 一 个 直观 效应 是 偶然 产生 的 。 


PP 值 (p-value) 
一 个 效应 可 能 偶然 产生 的 概率 。 


统计 显著 (statistically significant) 
如 果 一 个 效应 不 太 可 能 偶然 产生 ， 则 是 统计 显著 的 。 


写 RunModel 方法 ， 不 使 用 
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。 置换 检验 (permutation test) 
通过 重新 排列 观测 数据 集 计 算 p 值 。 


。 重 抽 样 检 验 (resampling test) 
通过 对 观测 数据 集 进 行 放 回 抽样 ， 计 算 p 值 。 




















。 双 侧 检验 (two-sided test) 
此 检验 回答 的 问题 是 ， 如 果 不 考 虑 差异 的 方向 性 ， 实 际 效应 与 直观 效应 规模 相同 的 概率 


是 多 少 ? 








。 单 侧 检 验 (one-sided test) 
此 检验 回答 的 问题 是 ， 实 际 效应 与 直观 效应 规模 相同 并 且 差异 的 方向 也 一 致 的 概率 是 
多 少 ? 





。 卡 方 检验 (chi-squared test) 
使 用 卡 方 统计 量 作为 检验 统计 量 的 检验 。 











。 误 报 (false positve) 


当 效应 为 假 时 ， 作 出 效应 为 真 的 结论 。 





。 漏 报 (false negative) 
当 效 应 非 偶然 产生 时 ， 作 出 效应 是 偶然 产生 的 结论 。 


。 功效 (power) 
当 原 假设 为 假 时 ， 正 检验 的 概率 。 








第 10 章 


线性 最 小 二 乘法 








本 章 代 码 位 于 linear.py 中 。 前 言 介 绍 了 如 何 下载 和 运行 本 书 代 码 。 


10.1 最 小 二 乘法 拟 合 

相关 系数 度量 变量 关系 的 强 弱 和 正 负 ， 但 并 不 关注 关系 的 斜率 。 估 计 和 斜率 有 几 种 方法 ， 最 
常用 的 是 线性 最 小 三 乘法 拟 合 (linear least squares fit)。“ 线 性 拟 合 ”是 用 一 条 线 对 变量 3 
系 进行 建 模 。“ 最 小 二 乘法 ” 拟 合 实现 线 与 数据 之 间 的 均 方差 最 小 。 

假设 我 们 要 将 一 个 点 序列 ys 表示 成 另 一 个 序列 xs 的 函数 。 如 果 xs 和 ys 之 间 存 在 线性 关系 ， 
截 距 为 inter， 和 斜率 为 stope， 那 么 我 们 就 可 以 预期 每 个 y[i] 值 为 inter + slope * x[i]。 
但 是 ， 除 非 完 全 相关 ， 否 则 我 们 的 预测 只 能 是 近似 的 。 实 际 数据 到 拟 合 线 的 竖 直 偏 移 或 残 
差 (residual) 为 : 











res = ys - (inter + slope * xs) 








残 差 可 能 由 随机 因素 导致 ， 如 测量 误差 ， 也 可 能 由 未 知 的 非 随机 因素 导致 。 例 如 ， 如 果 我 
们 试图 预测 通过 身高 计算 体重 的 函数 ， 那 么 未 知 因素 可 能 有 饮食 、 锯 炼 及 体型 等 。 


如 果 参 数 inter 和 stope 的 估计 错误 ， 那 么 残 差 就 会 变 大 ， 因 此 我 们 很 自然 地 希望 选择 的 
参数 能 使 残 差 最 小 。 


我 们 可 以 选择 使 残 差 的 绝对 值 最 小 、 平 方 值 最 小 ， 或 者 立方 值 最 小 ， 但 是 最 常见 的 做 法 是 
使 残 差 平方 和 sum(res**2)) 最 小 。 
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为 什么 这 样 做 呢 ? 我 们 有 3 个 很 好 的 理由 ， 还 有 一 个 不 那么 重要 的 理由 : 











。 平方 值 和 残 差 的 正 负 没 有 关系 ， 这 正 是 我 们 通常 希望 的 ; 

。 平方 值 使 较 大 的 残 差 具 有 更 多 的 权重 ,但 又 不 至 于 使 最 大 的 残 差 作用 过 大 ，; 

。 如 果 残 差 不 相 关 ， 符 合 均值 为 0 且 方 差 为 常数 (但 未 知 ) 的 正 态 分 布 ， 那 么 最 小 二 乘 
法 拟 合 也 是 inter 和 slope 的 最 大 似 然 估 计量 (参见 https://en.wikipedia.org/wiki/Linear_ 
Tegression ) ; 


。 使 残 差 平方 最 小 的 inter 和 slope 的 值 有 很 好 的 算法 。 


当 考 虑 计算 效率 比 选择 解决 问题 的 最 佳 方法 更 重要 时 ， 上 面 列 出 的 最 后 一 个 理由 就 有 其 存 
在 的 道理 。 但 现在 我 们 已 经 不 需要 过 份 受 限于 计算 效率 ， 因 此 有 必要 考虑 是 否 应 该 选择 使 
残 差 平方 最 小 。 
例如 ， 如 果 你 使 用 xs 预测 ys 的 值 ， 估 计 过 高 可 能 比 估计 过 低 更 好 (或 更 差 )。 在 这 种 情 


况 下 ， 你 可 能 需要 对 每 个 残 差 计算 一 些 成 本 函数 ， 使 总 成 本 sum(cost(res)) 最 小 。 不 管 怎 
样 ， 最 小 二 乘法 拟 合计 算 速度 快 ， 容 易 实 现 ， 而 且 通常 结果 也 不 错 。 







































































10.2 ”实现 


thinkstats2 提供 了 一 些 简单 函数 ， 演 示 线 性 最 小 二 乘法 的 实现 。 





def LeastSquares(xs, ys): 
meanx, varx = MeanVar(xs) 
meany = Mean(ys) 


slope = Cov(xs, ys, meanx, meany) / varx 
inter = meany - slope * meanx 


return inter, slope 


LeastSquares 以 序列 xs 和 ys 为 参数 ， 返 回 估 计 参 数 inter 和 slope。 至 于 其 中 的 原理 ， 可 
以 参考 http://wikipedia.org/wiki/Numerical_methods_for_linear_least_squares。 














thinkstats2 还 提供 FitLine 函数 ， 它 以 inter 和 stLope 为 参数 ， 返 回 序列 xs 的 拟 合 线 。 








def FitLine(xs, inter, slope): 
fit xs = np.sort(xs) 
fit ys = inter + slope * fit_xs 
return fit xs, fit_ys 


我 们 可 以 使 用 这 些 函 数 ， 计 算 由 母亲 年 龄 得 到 新 生 儿 体重 函数 的 最 小 二 乘法 拟 合 。 








live, firsts, others = first.MakeFrames() 

live = live.dropna(subset=['agepreg', 'totalwgt_lb']) 
ages = live.agepreg 

weights = live.totalwgt_lb 
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inter, slope = thinkstats2.LeastSquares(ages, weights) 
fit xs, fit ys = thinkstats2.FitLine(ages, inter, slope) 


计算 得 到 的 截 距 和 和 斜率 估计 值 分 别 为 6.8 磅 和 每 年 0.017 磅 。 如 果 我 们 将 截 距 解释 为 母亲 0 
岁 时 新 生 儿 的 预期 体重 ， 这 听 起 来 没什么 道理 ， 而 斜率 又 非常 小 ， 实 在 很 难 解释 。 








我 们 可 以 抛 开 x = 0 时 的 截 距 ， 转 而 讨论 在 x 均值 处 的 截 距 。 在 我 们 的 数据 中 ， 母 亲 的 年 
龄 均值 为 25 岁 ， 那 么 25 岁 母 亲 产 下 的 婴儿 的 平均 体重 为 7.3 磅 。 和 斜率 为 每 年 0.27 准 司 ， 
或 每 10 年 0.17 磅 。 











图 10-1 展示 了 新 生 儿 体重 和 母亲 年 龄 的 散 点 图 以 及 拟 合 线 。 查 看 这 种 图 表 ， 我 们 可 以 估计 
变量 关系 是 否 为 线性 ， 拟 合 线 是 否 很 好 地 反映 了 变量 关系 。 这 通常 是 种 不 错 的 做 法 。 
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10-1: 新 生 儿 体重 与 母亲 年 龄 的 散 点 图 及 线性 拟 合 


10.3 ” 残 差 


还 有 一 种 有 用 的 检验 方法 ， 即 绘制 残 差 。thinkstats2 提供 一 个 计算 残 差 的 函数 。 














def Residuals(xs, ys, inter, slope): 
xs = np.asarray(xs) 
ys = np.asarray(ys) 
res = ys - (inter + slope * xs) 
return res 


Residuals 的 参数 是 序列 xs 和 ys， 以 及 估计 参数 inter 和 slope。Residuals 返回 实际 值 和 
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拟 合 线 之 间 的 差 值 。 


为 了 对 残 差 进行 可 视 化 展示 ， 我 把 调查 参与 者 按 年 龄 分 组 ， 用 7.2 市 中 的 做 法 计算 每 组 的 
百 分 位 秩 。 图 10-2 展示 了 每 个 年 龄 组 残 差 的 第 25、 第 50 和 第 75 百 分 位 秩 。 正 如 我 们 预 
期 的 ， 中 位 数值 接近 0， 四 分 位 距 约 为 2 磅 。 因 此 ， 如 果 我 们 已 知 母 亲 的 年 龄 ， 就 可 以 有 
50% 的 概率 将 新 生 儿 的 体重 估计 精确 到 磅 。 
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10-2: 线性 拟 合 的 残 差 

















理想 情况 下 ， 这 些 线 应 该 是 平 的 ， 说 明 残 差 是 随机 的 ， 这 些 线 还 应 该 是 平行 的 ， 说 明 所 有 
年 龄 组 的 残 差 方 差 都 很 小 。 实 际 上 ， 图 中 这 些 线 接近 平行 ， 这 一 点 很 不 错 。 但 是 这 些 线 都 
弯 弯 曲 曲 的 ， 说 明 关系 是 非 线性 的 。 尽 管 如 此 ， 线 性 拟 合 仍然 是 可 能 满足 某 些 需求 的 不 错 
的 简单 模型 。 


10.4 估计 


参数 slope 和 inter 是 基于 样本 估计 得 到 的 ， 因 而 也 和 其 他 估计 值 一 样 ， 会 受到 抽样 偏 
倚 、 测 量 误差 和 抽样 误差 的 影响 。 我 们 在 第 8 章 讨论 过 ， 抽 样 偏 倚 是 由 不 具 代 表 性 的 样本 
导致 的 ， 测 量 误差 是 在 数据 收集 和 记录 过 程 中 产生 的 ， 测 量 样本 而 非 测 量 总 体 则 会 产生 抽 
样 误差 。 

为 了 估计 抽样 误差 ， 我们 会 问 :“ 如 果 再 次 运行 这 个 实验 ， 我 们 预期 估计 值 会 有 多 大 变 
化 ? ”要 回答 这 个 问题 ， 我 们 可 以 运行 模拟 实验 ， 计 算 估计 值 的 抽样 分 布 。 


我 模拟 实验 的 方法 是 对 数据 进行 重 抽样 ， 也 就 是 说 ， 将 观测 到 的 妊娠 数据 作为 整个 总 体 ， 
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从 这 个 观测 样本 中 进行 放 回 抽样 。 





def SamplingDistributions(live, iters=101): 

t= [] 

for _ in range(iters): 
sample = thinkstats2.ResampLeRows(Live) 
ages = sample.agepreg 
weights = sample.totalwgt_ lb 
estimates = thinkstats2.LeastSquares(ages, weights) 
t.append(estimates) 


inters, slopes = zip(*t) 

return inters, slopes 
SamplingDistributions 的 参数 之 一 为 DataFrame， 其 中 每 个 成 功 生 产 数 据 为 一 行 ， 另 一 
个 参数 是 待 模拟 的 实验 次 数 iters。SamplingDistributions 使 用 ResampleRows 方法 对 观 
测 到 的 妊娠 数据 进行 重 抽样 。 我 们 之 前 使 用 过 SampLeRows 方法 ， 从 一 个 DataFrame 中 抽 
取 随 机 的 数据 行 。thinkstats2 也 提供 ResampleRows 方法 ， 这 个 方法 返回 的 样本 与 原样 本 
大 小 相同 。 














def ResampLeRows(df) : 
return SampleRows(df, len(df), replace=True) 


完成 重 抽样 后 ， 我 们 使 用 模拟 样本 来 估计 参数 。 结 果 为 两 个 序列 ， 截 距 估计 值 和 斜率 估 
计 值 。 


最 后 ， 我 们 将 这 个 抽样 分 布 的 标准 误差 和 置信 区 间 打 印 出 来 。 

















def Summarize(estimates, actual=None): 
mean = thinkstats2.Mean(estimates) 
stderr = thinkstats2.Std(estimates, mu=actual) 
cdf = thinkstats2.Cdf(estimates) 
ci = cdf.ConfidenceInterval(90) 
print('mean, SE, CI', mean, stderr, ci) 





Summarize 的 参数 是 佑 计 值 和 实际 值 序列 ， 打 印 估计 值 的 均值 、 标 准 误差 和 90% 置信 区 间 。 

















我 们 计算 得 到 截 距 估计 值 的 均值 为 6.83， 标 准 误差 为 0.07，90% 置信 区 间 为 (6.71, 6.94)。 
和 斜率 估计 值 的 结果 可 以 写 为 : 0.0174、SE 0.0028 和 CI (0.0126, 0.0220)。 和 斜率 估计 值 CI 的 
最 大 值 几乎 是 最 小 值 的 两 倍 ， 应 视 为 粗略 估计 。 


为 了 可 视 化 地 展示 这 个 估计 的 抽样 误差 ， 我 们 可 以 绘制 出 所 有 的 拟 合 线 。 或 者 ， 简 洁 起 
见 ， 我 们 可 以 绘制 每 个 年 龄 的 90% 置信 区 间 。 代 码 如 下 : 























def PlotConfidenceIntervals(xs, inters, slopes, 
percent=90, **options): 
fys_seq = [] 
for inter, slope in zip(inters, slopes): 
fxs, fys = thinkstats2.FitLine(xs, inter, slope) 
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fys_seq.append(fys) 


p = (100 - percent) / 2 

percents = p, 100 - p 

low, high = thinkstats2.PercentileRows(fys_seq, percents) 
thinkplot.FillBetween(fxs, low, high, **options) 


代码 中 的 xs 是 母亲 年 龄 序列 ，inters 和 slopes 是 SamplingDistributions 生成 的 参数 估计 
值 ，percent 指定 了 需要 绘制 的 置信 区 间 。 


PlotConfidenceIntervals 为 每 一 对 inter 和 slope 值 生 成 一 条 拟 合 线 ， 并 将 结果 存储 在 
fys_seq 序列 中 ， 然 后 使 用 PercentileRows 为 每 个 x 值 选择 y 的 高 低 百 分 位 秩 。 对 于 90% 
的 置信 区 间 ，PlotConfidenceIntervals 选择 第 5 和 第 95 百 分 位 秩 。FillBetween 方法 在 两 
条 拟 合 线 之 间 绘 制 一 个 多 边 形 进行 填充 。 

对 于 新 生 儿 体重 与 母亲 年 龄 关系 的 拟 合 曲线 ， 图 10-3 展示 了 其 50% 和 90% 置信 区 间 。 医 
中 区 域 的 竖 直 宽度 代表 抽样 误差 的 影响 。 抽 样 误差 对 均值 附近 的 值 影响 较 小 ， 对 极端 值 影 
响 较 大 。 
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10-3: 50% 和 90% 置信 区 间 ， 展 示 了 inter 和 sLope 抽样 误差 导致 的 拟 合 线 变 化 


10.5 ” 拟 合 优 度 


要 度量 一 个 线性 模型 的 质量 优 劣 ， 或 拟 合 优 度 (goodness of fit)， 我 们 可 以 采取 好 儿 种 方 
法 ， 最 简单 的 方法 之 一 是 度量 残 差 的 标准 差 。 
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如 果 使 用 线性 模型 进行 预测 ， 那 么 Std(res) 就 是 预测 值 的 均 方 根 误差 ， 即 均 方 误差 的 平方 根 。 
例如 ， 如 果 使 用 母亲 的 年 龄 来 估计 新 生 儿 的 体重 ， 那 么 估计 值 的 均 方 根 误差 就 是 1.40 磅 。 











如 果 在 不 知道 母亲 年 龄 的 情况 下 估计 新 生 儿 体重 ， 那 么 估计 值 的 均 方 根 误差 为 std(ys)， 
值 为 1.41 磅 。 因 此 ， 在 我 们 使 用 的 这 个 示例 中 ， 已 知 母亲 年 龄 并 不 能 显著 提高 预测 的 准 
确 性 。 








度量 拟 合 优 度 的 另 一 种 方法 是 计算 决定 系数 (coefficient of determination) ， 通 常 写 作 尺 ， 
读 作 “RR 平方 ”。 


def CoefDetermination(ys, res): 
return 1 - Var(res) / Var(ys) 





其 中 Var(res) 是 使 用 模型 进行 猪 测 的 均 方 误差 .Var(ys) 是 不 使 用 模型 时 的 均 方 误差 。 因 
此 ， 这 两 个 值 的 比率 是 使 用 模型 仍 存 在 的 均 方 误差 比例 ，R? 是 该 模型 消除 的 均 方差 比例 。 


对 于 新 生 儿 体重 和 母亲 年 龄 ， 尺 :为 0.0047， 说 明 使 用 母亲 年 龄 大 约 能 预测 新 生 儿 体重 变化 
中 1% 的 一 半 。 


决定 系数 和 Pearson 相关 系数 之 间 有 一 个 简单 的 关系 : R=p 。 例 如 ， 如 果 p = 0.8 或 -0.8， 
那么 R= 0.64。 





虽然 人 们 经 常 使 用 p 和 R* 量化 变量 关系 的 强 弱 ， 但 是 用 它们 解释 预测 能 力 却 很 困难 。 在 我 
看 来 ，Std(res) 是 预测 能 力 的 最 佳 体现 ， 尤 其 是 和 Std(ys) 一 起 使 用 时 。 

例如 ， 当 人 们 谈 到 SAT (美国 大 学 录取 使 用 的 标准 化 测试 ) 的 有 效 性 时 ， 经 常会 讨论 SAT 
成 绩 与 其 他 智力 测验 之 间 的 相关 性 。 

一 项 研究 表明 ，SAT 总 成 绩 与 IQ 值 之 间 的 Person 相关 性 为 p = 0.72， 二 者 看 似 具 有 很 强 
的 相关 性 。 但 是 尺 =z = 0.52， 因 此 SAT 成 绩 只 能 影响 IQ 值 变化 的 52%。 




































































将 IQ 值 正 态 化 ， 得 到 Std(ys) = 15， 因 此 : 


>>> Var_yS = 15**2 

>>> rho = 0.72 

>>> r2 = rho**2 

>>> var_res = (1 - r2) * var_ys 
>>> std_res = math.sqrt(var_res) 
10.4096 





因此 ， 如 果 我 们 使 用 SAT 成绩 预 测 IQ 值 ， 可 以 将 均 方 根 误 差 从 15 降低 到 10.4。 值 为 
0.72 的 相关 性 只 能 将 均 方 根 误差 降低 约 31%。 


如 果 你 看 到 一 个 看 似 很 强 的 相关 性 ， 请 记 住 R 更 能 反映 均 方 误差 的 降低 程度 ， 而 均 方 根 误 
差 的 降低 程度 可 以 更 好 地 说 明 预 测 能 
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10.6 检验 线性 模型 


母亲 年 龄 对 新 生 儿 体重 的 影响 很 小 ， 几 乎 没有 预 负 能 力 。 那 么 ， 这 种 明显 的 关系 可 能 是 偶 
然 产 生 的 吗 ? 我 们 可 以 使 用 几 种 方法 ， 检 验 线性 拟 合 的 结果 。 


一 种 方法 是 检验 均 方 误差 的 显著 降低 是 否 偶然 。 在 这 个 检验 中 ， 检 验 统计 量 为 RR， 原 假设 
为 变量 之 间 不 存在 关系 。 我 们 可 以 采用 9.5 节 中 检验 母亲 年 龄 与 新 生 儿 体重 相关 性 时 的 做 
法 ， 通 过 置换 对 原 假设 进行 模拟 。 实 际 上 ， 由 于 R =p ，R 的 单 侧 检 验 等 效 于 p 的 双 侧 检 
验 。 我 们 已 经 进行 过 这 项 检验 ， 得 到 pp < 0.001， 因 此 认为 母亲 年 龄 和 新 生 儿 体重 之 间 关 系 
的 直观 效应 是 统计 显著 的 。 


另 一 种 方法 是 检验 斜率 是 否 偶然 。 在 这 个 检验 中 ， 原 假设 是 斜率 实际 为 0。 因 此， 我 们 可 
以 使 用 均值 附近 的 随机 变化 建立 新 生 儿 体重 模型 。 这 个 模型 的 假设 检验 实现 如 下 : 









































class SlopeTest(thinkstats2.HypothesisTest): 


def TestStatistic(self, data): 
ages, weights = data 
_，SLope = thinkstats2.LeastSquares(ages, weights) 
return slope 


de 


下 


MakeModel(self): 

_, weights = self.data 
self.ybar = weights.mean() 
self.res = weights - self.ybar 


de 


下 


RunModel(self): 

ages, _ = self.data 

weights = self.ybar + np.random.permutation(self.res) 
return ages, weights 


代码 使 用 的 数据 为 年 龄 和 体重 序列 。 检 验 统计 量 为 Leastsquares 估计 的 斜率 。 代 码 使 用 所 


有 新 生 儿 体重 的 均值 和 到 均值 的 偏差 表示 原 假设 模型 。 代 码 对 偏差 进行 置换 ， 然 后 琶 加 在 
均值 上 ， 从 而 生成 模拟 数据 。 

















运行 这 个 假设 检验 的 代码 如 下 : 


live, firsts, others = first.MakeFrames() 

live = live.dropna(subset=['agepreg', 'totalwgt_lb']) 
ht = SlopeTest((live.agepreg, live.totalwgt_1b)) 
pvalue = ht.PValue() 


得 到 的 p 值 小 于 0.001。 因 此 ， 虽 然 估 计 和 斜率 很 小 ， 但 不 大 可 能 是 偶然 产生 的 。 











通过 模拟 原 假设 来 估计 值 是 非常 正确 的 ， 但 还 有 更 简单 的 方法 。 请 记 住 ,我们 在 10.4 节 
已 经 计算 过 斜率 的 抽样 分 布 。 计 算 时 ， 我 们 假设 观测 斜率 是 正确 的 ， 使 用 重 抽 样 进行 模拟 
实验 。 
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图 10-4 展示 了 10.4 节 中 得 到 的 斜率 抽样 分 布 ， 以 及 原 假设 下 生成 的 斜率 分 布 。 抽 样 分 布 
的 中 间 值 约 为 估计 斜率 ， 即 0.017 磅 /年 。 原 假设 下 的 斜率 中 间 值 约 为 0。 除 此 之 外 ， 这 两 
个 分 布 是 一 样 的 ， 而 且 还 是 对 称 的 (原因 将 在 14.4 节 中 进行 讨论 )。 
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图 10-4: 估计 斜率 的 抽样 分 布 及 在 原 假 设 下 生成 的 斜率 分 布 ， 坚 线 分 别 位 于 0 和 观测 斜率 
( 即 0.017 磅 /年 ) 处 


因此 ， 我 们 可 以 用 两 种 方法 估计 bp 值 。 

。 计算 原 假设 下 斜率 大 于 观测 斜率 的 概率 。 

。 计算 抽样 分 布 中 斜率 小 于 0 的 概率 。( 如 果 估计 斜率 为 负数 ， 那 么 应 该 计算 抽样 分 布 中 
斜率 大 于 0 的 概率 。) 

我 们 通常 会 计算 参数 的 抽样 分 布 ， 因 此 第 二 种 方法 较为 容易 。 而 且 第 二 种 方法 计算 的 值 较 

为 准确 ， 除 非 样 本 规模 很 小 而 且 残 差分 布 偏 斜 。 即 便 如 此 ， 第 二 种 方法 计算 的 值 通常 也 很 

不 错 ， 因 为 p 值 并 不 需要 特别 准确 。 

下 面 的 代码 使 用 抽样 分 布 估计 斜率 的 p 值 。 


inters, slopes = SamplingDistributions(live, iters=1001) 
slope_cdf = thinkstats2.Cdf(slopes) 
pvalue = slope_cdf[0] 

















了 






































结果 再 一 次 得 到 < 0.001。 


10.7 ”加 权重 抽样 


到 目前 为 止 ， 我 们 一 直 把 全 国家 庭 增长 调查 数据 当 作 代表 性 样本 ， 然 而 1.2 市 中 提 到 过 ， 
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部 他 


这 部 分 数据 并 不 是 代表 性 样本 。 这 个 调查 特意 对 一 些 群 组 进行 过 度 抽 样 ， 以 提高 获得 统计 
著 结果 的 机 会 ， 即 增加 了 涉及 这 些 群 组 的 检验 功效 。 


这 种 调查 设计 有 很 多 用 途 ， 但 也 意味 着 如 果 不 考虑 具体 的 抽样 过 程 ， 我 们 就 无 法 使 用 这 个 
样本 估计 总 体 。 


对 于 每 个 调查 参与 者 ， 全 国家 庭 增长 调查 数据 都 包含 一 个 变量 finalwgt， 这 是 该 参与 者 代 
表 的 全 国人 口 数量 。 这 个 值 称 为 抽样 权重 (sampling weight)， 或 直接 称 为 “权重 ”。 


举 个 例子 ， 假 设 某 个 国家 有 3 亿 人 ， 而 我 们 调查 其 中 的 10 万 人 ， 和 那么 每 个 调查 参与 者 都 
代表 3000 人 ， 如 果 对 一 个 群 组 抽取 了 两 倍 的 调查 者 ， 那 么 这 个 过 度 抽 样 群 组 中 的 每 个 人 
就 具有 和 较 低 的 权重 ， 约 为 1500。 


要 矫正 过 度 抽样 ， 我 们 可 以 重 抽 样 ， 即 按照 与 抽样 权重 成 比例 的 概率 从 调查 结果 中 抽取 样 
本 ， 然 后 对 需要 估计 的 数值 生成 抽样 分 布 、 标 准 误差 和 置信 区 间 。 我 们 以 新 生 儿 体重 为 
例 ， 采 取 使 用 和 不 使 用 抽样 权重 两 种 方法 ， 佑 计 新 生 儿 体重 均值 ， 并 将 结果 进行 对 比 。 


10.4 节 用 到 了 ResampLeRows， 这 个 方法 从 一 个 DataFrame 中 选取 数据 行 ， 每 行 被 抽 中 的 概 
率 相 同 。 现 在 我 们 需要 使 用 与 抽样 权重 成 比例 的 概率 再 次 进行 抽样 。ResampleRowsWeighted 
方法 以 一 个 DataFrame 为 参数 ， 按 照 ftnatwgt 中 的 权重 对 数据 行进 行 重 抽样 ， 返 回 的 
DataFrame 中 包含 重 抽样 后 的 数据 行 。 


y 






























































def ResampleRowsWeighted(df): 
weights = df.finalwgt 
pmf = thinkstats2.Pmf(weights.iteritems()) 
cdf = pmf.MakeCdf() 
indices = cdf.Sample(len(weights)) 
sample = df.Loc[indices] 
return sample 


pmf 将 每 行 的 索引 映射 到 正 态 化 权重 。 代 码 将 概率 函数 转换 为 累积 分 布 函 数 ， 从 而 缩短 抽 
样 过程 的 时 间 。indices 是 列 索引 序列 ，samplte 是 包含 选中 数据 行 的 DataFrame。 由 于 代码 
使 用 放 回 抽样 , 因此 同一 行 可 能 出 现 多 次 。 


现在 ， 我 们 可 以 将 使 用 权重 和 不 使 用 权重 的 重 抽样 效果 进行 对 比 。 如 有 果 不 使 用 权重 ， 生 成 
抽样 分 布 的 代码 如 下 : 











estimates = [ResampleRows(live).totalwgt_lb.mean() 
for _ in range(iters)] 


使 用 权重 生成 抽样 分 布 的 代码 为 : 


estimates = [ResampleRowsWeighted(live).totalwgt_lb.mean() 
for _ in range(iters)] 








下 表 列 出 了 抽样 结果 的 统计 量 。 
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新 生 儿 体重 均值 ( 磅 ) ”标准 误差 ”90% 置 信 区 间 





二 


不 使 用 权重 7.27 0.014 (7.24, 7.29) 
使 用 权重 7.35 0.014 (7.32, 7.37) 











本 例 中 ， 权 重 的 效果 很 小 ， 但 却 不 容 忽视 。 两 种 抽样 方式 得 到 的 估计 均值 区 别 约 为 0.08 
磅 ， 或 1.3 嚼 司 。 这 个 区 别 显著 大 于 这 个 估计 值 的 标准 误差 0.014 磅 ， 说 明 这 种 区 别 不 是 
偶然 产生 的 。 


10.8 ”练习 

本 章 练习 的 参考 答案 位 于 chap10soln.ipynb 中 。 
练习 10.1 

请 使 用 BRFSS 数据 ， 计 算 体重 的 对 数值 与 身高 的 线性 最 小 二 乘法 拟 合 。 在 这 人 人 


一 个 变量 经 











变量 经 过 对 数 计算 转换 后 ， 如 何 才能 最 佳 展示 估计 参数 ”如 果 需 要 佑 计 某 人 体重 


知 身高 会 带 来 多 大 帮助 ? 
和 全 国家 庭 增长 调查 一 样 ，BRFSS sm 并 对 每 个 调查 参与 者 提 


供 抽样 权重 。 在 BRFSS 数据 中 ， 抽 样 权 重 的 变量 名 为 totalwt。 请 使 用 带 权 重 和 不 带 




















个 模 


型 中 ， 


有 ， 





他 权重 





的 重 抽样 估计 BRFSS 调查 参 0 、 该 均值 的 标准 误差 以 及 90% 置信 区 间 。 使 
用 权重 对 这 个 估计 值 有 何 影 响 ? 


10.9 术语 











线性 拟 合 (linear fit) 
对 变量 关系 进行 建 模 的 线 。 





最 小 二 乘法 拟 合 (least squares fit) 
使 残 差 平方 和 最 小 的 数据 集 模型 。 
残 差 (residual) 
实际 值 与 模型 的 偏差 。 


拟 合 优 度 (goodness of fit) 
度量 模型 与 数据 相符 合 的 程度 。 














决定 系数 (coefficient of determination ) 


量化 拟 合 优 度 的 统计 量 。 





抽样 权重 (sampling weight) 
与 样本 中 一 个 观测 相关 的 值 ， 说 明 该 观测 代表 总 体 的 哪 一 部 分 。 
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回归 








前 一 章 介 绍 的 线性 最 小 二 乘法 拟 合 属 于 回归 (regression) 的 一 种 。 回 归 的 范围 更 广 ， 涵 盖 
将 任何 模型 拟 合 到 任何 数据 的 问题 。 “回归 ”这 个 词 的 使 用 属于 历史 遗留 问题 ， 本 章 “ 回 
”一 词 的 含义 和 其 原始 含义 并 不 完全 一 臻 ， 只 是 间接 相关 。 























We 





回归 分 析 的 目的 是 描述 两 组 变量 之 间 的 关系 ， 一 组 称 为 因 变 量 (dependent variable) ， 另 一 
组 称 为 解释 变量 (explanatory variable ) 。 


在 前 一 章 ， 我 们 以 母亲 年 龄 为 解释 变量 ， 预 测 因 变 量 新 生 儿 的 体重 。 如 果 回 归 分 析 中 只 
有 1 个 因 变 量 和 1 个 解释 变量 ， 就 属于 简单 回归 (simple regression)。 本 章 将 讨论 多 重 
回归 (multiple regression)， 涉 及 多 个 解释 变量 。 有 多 个 因 变量 的 回归 分 析 称 为 多 元 回归 


(multivariate regression) 由 


























如 果 因 变量 和 解释 变量 之 间 的 关系 是 线性 的 ， 就 属于 线性 回归 (linear regression)。 例 如 ， 
如 果 因 变量 为 7， 解 释 变 量 为 2 和 x,， 那 么 我 们 可 以 写 出 如 下 的 线性 回归 模型 ; 
































y=Potpixithaxste 


其 中 p 为 截 距 ,pi 是 与 xi 相关 的 参数 ，pP, 是 与 各 相关 的 参数 ，s 是 随机 变化 或 其 他 未 知 
因素 导致 的 残 差 。 


给 定 一 列 y 值 ， 以 及 x 和 x 的 值 ， 我们 可 以 算出 使 得 e 最 小 的 参数 值 h6、pi 和 p,。 这 
个 过 程 称 为 普通 最 小 二 乘法 (ordinary least square)。 普 通 最 小 二 乘法 的 计算 方法 与 
thinkstats2.LeastSquare 类 似 ， 但 更 为 通用 ， 可 以 处 理 多 个 解释 变量 。 细 节 请 参考 https:/ 


en.wikipedia.org/wiki/Ordinary_least_squares。 
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本 章 代码 位 于 regression.py 中 。 前 言 介绍 了 如 何 下 载 和 使 用 本 书 代码 。 


11.1 StatsModels 


前 一 章 介绍 了 thinkstats2.LeastSquares， 这 个 方法 实现 了 简单 线性 回归 ， 且 代码 非常 易 读 。 
对 于 多 重 回 归 ， 我 们 将 使 用 StatsModels， 这 个 Python 包 提 供 了 几 种 回归 形式 和 其 他 分 析 方 
法 。Anaconda 自 带 StatsModels 包 ， 如 果 你 使 用 的 不 是 Anaconda， 那 么 就 需要 单独 安装 。 




































































下 面 的 代码 使 用 StatsModels 运行 前 一 章 的 模型 ; 











import statsmodels.formula.api as smf 


live, firsts, others = first.MakeFrames() 
formula = 'totalwgt_lb ~ agepreg’ 

model = smf.ols(formula, data=live) 
results = model.fit() 




















statsmodels 提供 2 个 接口 (API)。“ 公 式 ”API 使 用 字符 串 标 识 因 变量 和 解释 变量 ， 所 
用 语法 称 为 patsy。 这 个 示例 使 用 操作 符 ~ 分 隔 不 同 的 变量 : 左边 是 因 变量 ， 右 边 是 解释 














三 
变量 。 


smf.ols 以 公式 字符 串 和 DataFrame live 为 参数 ， 返 回 表 示 模 型 的 OLS 对 象 。ols 代表 
“普通 最 小 二 乘法 ”。 














fit 方法 将 模型 拟 合 到 数据 ， 返 回 一 个 RegressionResults 对 象 ， 其 中 包含 拟 合 结果 。 


























拟 合 结果 也 可 以 通过 属性 获得 。paranms 是 一 个 Series 对 象 ， 将 变量 名 映射 到 对 应 的 参数 ， 
因此 ， 我 们 可 以 用 如 下 代码 获得 截 距 和 斜率 : 


inter 
slope 


results.params['Intercept'] 
results.params['agepreg'] 


估计 参数 值 为 6.83 和 0.017 5， 与 使 用 LeastSquares 得 到 的 结果 一 样 。 


pvalues 是 一 个 Series 对 象 ， 将 变量 名 映射 到 相关 的 p 值 ， 因 此 我 们 可 以 检查 斜率 估计 值 
是 否 是 统计 显著 的 : 














slope_pvaluye = results.pvalues['agepreg'] 
与 agereg 相关 的 p 值 为 5.7e-11， 小 于 0.001， 和 预期 一 样 。 


results.rsquared 为 RR 值 ， 结 果 为 0.0047。results 还 提供 f_pvatue， 这 是 与 整个 模型 相 
关 的 p 值 ， 与 检验 R 是 否 统计 显著 类 似 。 


另外 ，results 还 提供 残 差 序列 resid， 以 及 对 应 于 agepreg 的 拟 合 值 序列 fittedvalues。 
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results 对 象 提 供 summary() 方法 ， 将 结果 表示 为 可 读 格 式 。 


print(results.summary()) 





但 是 这 个 打印 结果 会 输出 许多 无 关 信 息 (至 少 现 阶 段 是 无 关 的 )， 因 此 可 以 使 用 更 简单 的 
函数 SunmarizeResults。 这 个 模型 的 结果 显示 如 下 : 

















Intercept 6.83 (0) 
agepreg 0.0175 (5.72e-11) 
R^2 0.004738 

Std(ys) 1.408 

Std(res) 1.405 


Std(ys) 是 因 变 量 的 标准 差 ， 即 不 利用 任何 解释 变量 时 猜测 新 生 儿 体重 得 到 的 均 方 根 误差 。 


Std(res) 是 残 差 的 标准 差 ， 即 使 用 母亲 年 龄 对 新 生 儿 体重 进行 猜测 时 得 到 的 均 方 根 误差 。 
正如 我 们 之 前 看 到 的 ， 已 知 母 亲 年 龄 并 不 能 显著 提高 新 生 儿 体重 预测 的 准确 性 。 


11.2 多重 回归 


在 4.5 节 我 们 看 到 ， 第 一 胎 比 其 他 胎 的 新 生 儿 体重 轻 ， 而 且 这 种 效应 是 统计 显著 的 。 但 是 
并 没有 明显 机 制导 致 第 一 胎 的 体重 较 轻 ， 所 以 这 个 结果 有 些 奇 怪 。 因 此 ， 人 们 可 能 怀疑 这 
种 关系 是 虚假 的 (spurious)。 























实际 上 ， 这 种 效应 存在 一 种 可 能 的 解释 ， 即 新 生 儿 体重 受 母亲 年 龄 影响 ， 而 生产 第 一 胎 时 
母亲 的 年 龄 较 小 。 

我 们 可 以 通过 一 些 计 算 来 检验 这 种 解释 是 否 具 有 说 服 力 ， 然 后 使 用 多 重 回归 进行 更 细致 的 
调查 。 首 先 ， 让 我 们 看 看 第 一 胎 与 其 他 胎 的 新 生 儿 体重 的 差 值 是 多 少 : 


























diff weight = firsts.totalwgt_ lb.mean() - others.totaLwgt_Lb.mean() 





第 一 胎 比 其 他 胎 的 新 生 儿 的 体重 轻 0.125 磅 ,或 2 岁 司 。 让 我 们 再 看 看 母亲 年 龄 的 差 值 : 


diff age = firsts.agepreg.mean() - others.agepreg.mean() 














产 下 第 一 胎 的 母亲 比 其 他 胎 新 生 儿 的 母亲 年 龄 小 3.59 岁 。 再 次 运行 线性 模型 ， 得 到 以 母亲 
年 龄 为 变量 的 新 生 儿 体重 函数 : 














results = smf.ols('totalwgt_lb ~ agepreg', data=live).fit() 
slope = results.params['agepreg'] 


得 到 的 斜率 为 0.175 磅 /年 。 将 这 个 斜率 乘 以 母亲 年 龄 差 ， 可 以 得 到 由 母亲 年 龄 导致 的 新 
生 儿 体重 差 的 预期 值 : 


slope * diff_age 





结果 为 0.063， 约 为 观测 差 值 的 一 半 。 因 此 ， 我 们 暂时 认为 ， 观 测 到 的 新 生 儿 体重 差 值 可 
以 部 分 解释 为 是 由 母亲 年 龄 差 导 致 的 。 


使 用 多 重 回归 ， 我 们 可 以 更 加 系统 地 探索 这 些 关 系 。 














live['isfirst'] = live.birthord == 1 
formula = 'totalwgt_lb ~ isfirst’ 
results = smf.ols(formula, data=live).fit() 





第 一 行 代码 创建 了 一 个 名 为 isfirst 的 新 列 , 第 一 胎记 录 的 isfirst 值 为 真 ， 其 他 胎记 录 的 
isfirst 值 为 假 。 随 后 的 代码 以 isfirst 为 解释 变量 ， 拟 合 一 个 模型 。 











这 段 代 码 生 成 的 结果 如 下 : 


Intercept 7.33 (0) 
isfirst[T.True] -0.125 (2.55e-05) 
R^2 0.00196 














isfirst 是 布尔 型 , 因此 ols 将 其 当 作 分 类 变量 (categorical variable), 即 这 些 值 分 为 不 同类 
别 ， 如 真 或 假 ， 而 不 应 看 作 数字 。 佑 计 参 数 是 isfirst 为 真 对 新 生 儿 体重 的 影响 ,因此 结果 
-0.125 磅 代表 第 一 胎 和 其 他 胎 的 新 生 儿 体重 的 差 值 。 
最 终 得 到 的 斜率 和 截 距 都 是 统计 显著 的 ， 说 明 它们 不 太 可 能 偶然 产生 。 但 这 个 模型 的 R 值 
很 小 ， 说明 isfirst 对 新 生 儿 体重 变化 的 影响 不 大 。 


以 apepreg 为 解释 变量 得 到 的 结果 为 : 









































Intercept 6.83 (0) 
agepreg 0.0175 (5.72e-11) 
R^2 0.004738 


同样 ， 这 些 参 数 是 统计 显著 的 ,但 R 值 很 小 。 





这 些 模型 证 实 了 我 们 之 前 的 结论 。 但 是 ， 现 在 我 们 可 以 用 单个 模型 同时 包含 这 两 个 变量 。 
使 用 公式 totaLwgt_Lb ~ isfirst + agepreg 得 到 的 结果 为 : 





Intercept 6.91 (0) 
isfirst[T.True] -0.0698 (0.0253) 
agepreg 0.0154 (3.93e-08) 


R^2 0.005289 

在 这 个 组 合 模 型 中 ，isfirst 的 参数 更 小 ， 约 是 单 变量 模型 中 的 一 半 ， 说 明 isfirst 的 这 前 
分 直观 效应 实际 是 由 agepreg 产生 的 。isfirst 的 p 值 约 为 2.5%， 处 在 统计 显著 的 边缘 。 
这 个 模型 的 R 值 略 高 ， 说 明 这 两 个 变量 对 新 生 儿 体重 的 共同 影响 要 大 于 其 中 任何 一 个 的 单 
独 影 响 〈 但 大 得 不 多 )。 
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11.3 非 线 性 关系 


由 于 agepreg 对 新 生 儿 体重 的 影响 可 能 不 是 线性 的 ， 所 以 可 以 考虑 添加 一 个 变量 ， 从 而 更 
好 地 反映 这 种 关系 。 我 们 可 以 添加 一 列 agepreg2， 值 为 母亲 年 龄 的 平方 : 














live['agepreg2'] = live.agepreg**2 
formula = 'totalwgt_lb ~ isfirst + agepreg + agepreg2" 


通过 估计 agepreg 和 agepreg2 的 参数 ， 可 以 有 效 地 拟 合 一 个 抛物 线 : 


Intercept 5.69 (1.38e-86) 
isfirst[T.True] -0.0504 (0.109) 

agepreg 0.112 (3.23e-07) 
agepreg2 -0.00185 (8.8e-06) 


R^2 0.007462 
agepreg2 的 参数 是 负 值 ， 因 此 这 个 抛物 线 是 向 下 弯曲 的 ， 与 图 10-2 中 的 曲线 形状 相符 。 


agepreg 的 二 次 模型 对 新 生 儿 体重 变化 进行 了 更 多 的 解释 。 在 这 个 模型 中 ，isfirst 的 参数 
较 小 ， 而 且 不 再 是 统计 显著 的 。 











使 用 agepreg2 这 样 的 计算 变量 ， 是 对 数据 进行 多 项 式 或 其 他 函数 拟 合 的 常用 方法 。 虽 然 有 
些 解释 变量 是 其 他 变量 的 非 线 性 函数 ， 但 因 变 量 是 解释 变量 的 线性 函数 ， 因 此 我 们 仍然 认 
为 这 个 过 程 属于 线性 回归 。 





























这 些 回 归结 果 如 下 表 所 示 : 
isfirst agepreg agepreg2 R? 
模型 1 -0.125* = = 0.002 
模型 2 一 0.0175* 一 0.0047 
模型 3 —0.0698(0.025) 0.0154* = 0.0053 
模型 4 -0.0504(0.11) 0.112* —0.00185* 0.0075 





表 中 的 列 为 解释 变量 和 决定 系数 R。 每 一 格 都 是 一 个 估计 参数 ， 其 后 括号 中 是 p 值 或 星 
号 ， 星 号 表示 pp 值 小 于 0.001。 




















我 们 认为 ， 新 生 儿 体重 的 直观 差异 可 以 (至 少 部 分 ) 由 母亲 年 龄 的 差异 进行 解释 。 如 果 模 
型 中 包括 母亲 年 龄 ， 那 么 isfirst 的 效应 会 变 小 ， 剩 余 的 效应 可 能 是 偶然 产生 的 。 


在 这 个 示例 中 ， 母 亲 年 龄 是 控制 变量 (control variable) 。 模 型 中 包含 的 agepreg“ 控 制 ” 
了 第 一 次 生产 和 其 他 情况 母亲 年 龄 的 差异 ， 从 而 将 isfirst 的 效应 (如 果 存 在 的 话 ) 隔离 
起 来 。 


























ML Ce 
11.4 数据 挖掘 
到 目前 为 止 ， 我 们 只 将 回归 模型 用 于 解释 。 例 如 ， 在 前 一 节 中 ， 我 们 发 现 新 生 儿 体重 的 直 
观 差异 是 由 母亲 年 龄 的 差异 导致 的 。 但 这 些 模 型 的 R 值 很 小 ， 说 明 其 预测 能 力 很 弱 。 这 一 
市 我 们 将 尝试 一 些 更 好 的 方法 。 














假设 一 位 同事 有 孕 待 产 ， 办 公 室 设 了 一 个 赌局 ， 预 测 新 生 儿 的 体重 (如果 不 了 解 彩 池 设 
赌 ， 请 参考 https://en.wikipedia.org/wiki/Betting_pool) 。 


如 有 果 你 非常 想 赢 得 这 个 赌局 ， 那 么 该 如 何 提高 自己 的 胜算 呢 ? 在 全 国家 庭 增加 调查 数据 集 
中 ， 每 个 妊娠 记录 有 244 个 变量 ， 每 位 参与 者 还 有 其 他 3087 个 变量 。 也 许 这 些 变量 中 的 
某 些 具有 预测 能 力 。 要 找到 哪些 变量 用 处 最 大 ， 为 什么 不 把 这 些 变量 都 试 试 呢 ? 


检验 妊娠 数据 表 中 的 变量 很 容易 ， 但 是 要 使 用 参与 者 表 中 的 变量 必须 将 每 个 妊娠 记录 与 一 
位 调查 参与 者 进行 匹配 。 理 论 上 ， 我 们 可 以 换 历 妊娠 数据 表 中 的 行 ， 使 用 caseid 找到 对 应 
的 参与 者 ， 然 后 把 参与 者 数据 表 中 的 值 复制 到 妊娠 数据 表 中 ， 但 是 这 种 做 法 会 很 慢 。 


更 好 的 方法 是 使 用 连接 (join) 操作 ，SQL 和 其 他 关系 数据 库 语 言 都 定义 了 连接 操作 ( 参 
见 https:Wen.wikipedia.org/wiki/Join (SQL)) 。DataFrame 实现 了 join 方法 ， 连 接 操作 可 以 如 
下 实现 : 






































Live = live[live.prglngth>30] 

resp = chap01soLn.ReadFemResp() 

resp.index = resp.caseid 

join = live.join(resp, on='caseid', rsuffix='_r') 





假设 办 公 室 赌局 设 在 孩子 出 生前 的 儿 周 ， 因 此 第 一 行 代码 选择 妊娠 时 间 超 过 30 周 的 记录 。 
第 二 行 代码 读 取 调 查 参与 者 文件 ， 结 果 为 使 用 整数 索引 的 DataFrame。 为 了 高 效 查 找 参与 
者 ， 将 resp.index 替换 为 resp.caseid。 

Live 对 象 调 用 join 方法 ， 参 数 为 resp 对 象 ，Live 为 “ 左 ” 表 ，resp 为 “ 右 ” 表 。 关 键 字 
参数 on 说 明了 两 张 表 中 进行 匹配 的 变量 。 

在 这 个 示例 中 ， 有 些 列 名 在 两 张 表 中 都 存在 ， 因 此 join 方法 必须 提供 rsuffix 参数 。 


rsuffix 是 一 个 字符 串 ， 附 加 在 右 表 中 重复 的 列 名 后 。 例 如 ， 这 两 张 表 都 有 一 列 名 为 race， 
是 调查 参与 者 的 种 族 编码 。join 结果 包含 列 race 和 race_r。 


pandas 的 连接 操作 实现 速度 非常 快 。 在 一 台 普 通 台 式 机 上 进行 全 国家 庭 增 长 调查 表 操 作 ， 
不 到 1 秒 就 可 以 完成 。 现 在 ， 我 们 可 以 开始 检验 变量 。 





















































t=[] 
for name in join.columns: 
try : 
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if join[name].var() < 1le-7: 
Continue 


formuLa = 'totalwgt_lb ~ agepreg + ' + name 
modeL = smf.ols(formula, data=join) 
if modeL.nobs < len(join)/2: 

continue 


results = model.fit() 
except (ValueError, TypeError): 


continue 


t.append((results.rsquared, name)) 





对 每 个 变量 ， 构 建 一 个 模型 ， 计 算 其 R， 然 后 把 结果 附加 到 一 个 列表 中 。 我 们 已 经 知道 
agepreg 具有 一 定 的 预测 能 力 ， 因 此 所 有 的 模型 都 包含 agepreg。 








代码 检测 发 现 每 个 解释 变量 的 值 都 发 生 了 变化 ， 否 则 回归 结果 将 是 不 可 靠 的 ， 此 外 还 对 每 
个 模型 的 观测 数量 进行 了 检测 。 包 含 大 量 nans 的 变量 不 适合 用 于 预测 。 























我 们 对 大 部 分 的 变量 都 没有 进行 任何 清洗 。 有 些 变量 的 编码 方式 不 太 适 合 线性 回归 ， 因 此 
我 们 可 能 会 错过 一 些 需 要 清洗 的 有 用 变量 ， 但 也 许 能 找到 一 些 不 错 的 预测 变量 。 


11.5 ”预测 


下 一 步 是 对 结果 进行 排序 ， 选 择 R 值 最 高 的 变量 。 








t.sort(reverse=True) 
for mse，name in t[:30]: 
print(name, mse) 





列表 中 的 第 一 个 变量 是 totalwgt_tb， 第 二 个 是 birthwgt_Lb。 显 然 ， 新 生 儿 体重 不 能 用 来 
预测 新 生 儿 体重 。 








同样 ，prglngth 具有 一 些 预测 能 力 ， 但 是 在 这 个 办 公 室 赌局 里 ， 妊 娠 时 间 (以 及 相关 变 
量 ) 还 属于 未 知 。 








第 一 个 有 用 的 预测 变量 是 babysex， 代 表 新 生 儿 的 性 别 。 在 全 国家 庭 增长 调查 数据 集中 ， 
男孩 大 概 比 女孩 重 0.3 磅 。 因 此 ， 如 果 我 们 知道 新 生 儿 的 性 别 ， 就 可 以 用 于 预测 体重 。 



































下 一 个 变量 是 race， 说 明 调 查 参 与 者 是 和 白人、 黑人 或 其 他 种 族 。 种 族 作 为 一 个 解释 变量 
能 有 些 问 题 。 在 全 国家 庭 增长 调查 这 样 的 数据 集中 ， 种 族 与 很 多 其 他 变量 相关 ， 如 收入 和 
其 他 社会 经 济 因素 。 在 回归 模型 中 ， 种 族 是 一 个 代理 变量 (proxy variable) ， 因 此 与 种 族 相 
关 的 直观 效应 经 常 是 〈 至 少 部 分 ) 由 其 他 因素 导致 的 。 


























下 一 个 变量 是 nbrnaLiv， 即 是 否 多 胞 胎 。 双 胞 胎 和 三 胞 胎 会 比 其 他 新 生 儿 的 体型 小 。 因 
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此 ， 如 果 知 道 这 位 假想 同事 是 否 怀 着 双胞胎 ， 对 预测 结果 会 有 帮助 。 


再 下 一 个 变量 是 paydu， 即 调查 参与 者 是 否 拥有 自己 的 住宅 。paydu 是 具有 预测 能 力 的 儿 个 
收入 相关 变量 之 一 。 在 全 国家 庭 增长 调查 这 样 的 数据 集中 ， 收 入 和 财富 几乎 与 所 有 效应 都 
相关 。 在 这 个 示例 中 ， 收 入 与 饮食 、 健 康 、 保 健 等 其 他 因素 相关 ， 这 些 因素 都 可 能 影响 新 
生 儿 的 体重 。 






































这 个 列表 中 其 他 一 些 变量 的 信息 要 到 生产 后 才 会 知道 ， 例 如 婴儿 母乳 喂养 周 数 bfeedwks。 
这 些 变量 无 法 用 于 预测 ， 但 是 你 也 许 会 猜想 为 什么 bfeedwks 会 与 新 生 儿 体重 相关 。 


有 时 人 们 会 先 形成 一 个 理论 ， 然 后 用 数据 检验 这 个 理论 ， 有 时 则 直接 用 数据 搜寻 可 能 的 理 
论 。 本 市 使 用 的 就 是 第 二 种 方法 ， 这 种 方法 称 为 数据 挖 据 (data mining)。 数 据 挖掘 的 好 处 
是 可 以 发 现 不 曾 预 期 的 模式 ， 但 问题 是 发 现 的 很 多 模式 是 随机 或 虚假 的 。 


















































找到 有 潜力 的 解释 变量 后 ， 我 测试 了 一 些 模 型 ， 并 选 定 了 其 中 一 个 。 














formula = ('totalwgt_ lb ~ agepreg + C(race) + babysex==1 + " 
'nbrnaliv>1 + paydu==1 + totincr') 
results = smf.ols(formula, data=join).fit() 


这 个 公式 使 用 了 一 些 新 语法 。C(race) 告诉 公式 解析 器 (Patsy) 将 race 作为 分 类 变量 ， 虽 
然 这 个 变量 编码 为 数值 。 








babysex 将 男性 编码 为 1， 女性 编码 为 2。 表 达 式 babysex==1 将 babysex 值 转换 为 布尔 值 
男性 为 True， 女性 为 FaLse。 


























同样 ， 多 胞 胎 的 nbrnaliv>1 结果 为 True， 拥有 自己 住宅 的 调查 参与 者 paydu==1 结果 为 True。 




















totincr 的 编码 值 为 1~14， 值 每 增加 1 代表 年 收入 增加 约 5000 美元 。 因 此 ， 我 们 可 以 把 这 
些 值 作为 数值 处 理 ， 用 5000 美元 为 显示 单位 。 


























pa 





























这 个 模型 的 结果 如 下 : 


Intercept 6.63 (0) 
C(race)[T.2] 0.357 (5.43e-29) 
C(race)[T.3] 0.266 (2.33e-07) 
babysex == 1[T.True] 0.295 (5.39e-29) 
nbrnaliv > 1[T.True] -1.38 (5.1e-37) 
paydu == 1[T.True] 0.12 (0.000114) 
agepreg 0.00741 (0.0035) 
totincr 0.0122 (0.00188) 





模型 使 用 了 收入 控制 变量 ， 但 变量 race 的 估计 参数 仍然 比 预 期 值 大 。race 值 为 1 代表 黑 
人 ，2 代表 白人 ，3 代表 其 他 种 族 。 黑 人 母亲 产 下 的 孩子 比 其 他 种 族 的 孩子 体重 轻 0.27 到 
0.36 磅 。 
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模型 结果 显示 ， 和 之 前 讨论 的 一 样 ， 男 孩 比 女孩 重大 概 0.3 磅 ， 多 胞 胎 比 其 他 新 生 儿 轻 
1.4 磅 。 














即便 使 用 了 收入 控制 变量 ， 模 型 仍然 显示 ， 拥 有 自己 住宅 的 母亲 产 下 的 孩子 比 其 他 新 生 儿 
重 0.12 磅 。 母 亲 年 龄 的 参数 比 11.2 市 中 的 结果 小 ， 说 明 其 他 一 些 变 量 与 年 龄 相关 ， 这 些 


变量 可 能 包括 paydu 和 totincr。 


























所 有 这 些 变量 都 是 统计 显著 的 ， 有 些 p 值 很 低 ,但 R 值 只 有 0.06， 仍然 很 小 。 不 使 用 这 
个 模型 时 ， 均 方 根 误差 值 为 1.27 磅 ， 使 用 这 个 模型 时 ， 均 方 根 误差 降 到 了 1.23 磅 。 因 此 ， 
你 赢得 这 个 赌局 的 机 会 并 没有 显 车 增加， 抱歉 ! 








11.6 Logistic 回 归 


在 之 前 的 示例 中 ， 一 些 解释 变量 是 数值 型 的 ， 一 些 是 分 类 型 (包括 布尔 型 ) 的 。 但 因 变 量 
都 是 数值 型 的 。 





线性 回归 可 以 通用 化 ， 从 而 处 理 其 他 种 类 的 因 变 量 。 如 果 因 变量 是 布尔 型 ， 那 么 通用 化 模 
型 称 为 Logistic 回归 (logistic regression) 。 如 果 因 变量 是 整数 ， 那 么 模型 称 为 Poisson 回归 


(Poisson Tegression ) 5 





举 个 Logistic 回归 的 例子 ， 我 们 可 以 考虑 办 公 室 赌局 的 一 种 变型 。 假 设 一 位 朋友 有 孕 ， 你 
想 预 测 孩 子 的 性 别 。 此 时 可 以 使 用 全 国家 庭 增长 调查 数据 寻找 影响 “性 别 比例 ”的 因素 ， 
而 性 别 比 率 正 是 新 生 儿 为 男孩 的 概率 。 


























如 果 将 因 变 量 用 数值 进行 编码 (例如 ，0 代表 女孩 ，1 代表 男孩 )， 那 么 你 可 以 使 用 普通 最 
小 二 乘法 ， 但 这 里 存在 一 些 问 题 。 线 性 模型 的 表示 形式 如 下 : 




















y=potpixitpaxste 




















其 中 y 为 因 变量 ，x, 和 x 为 解释 变量 。 我 们 之 后 需要 找到 使 残 差 最 小 的 参数 。 


使 用 普通 最 小 二 乘法 有 一 个 问题 ， 即 所 产生 的 预测 难以 解释 。 如 果 给 定 预 测 参 数 ， 以 及 x 
和 x 的 值 ， 那 么 这 个 模型 可 能 预测 得 到 y= 0.5， 而 y 有 意义 的 取 值 仅 为 0 或 1。 











我 们 也 许可 以 将 这 个 结果 解释 为 概率 。 例 如 ， 具 有 特定 x, 和 x, 值 的 调查 参与 者 ， 产 下 男 
孩 的 概率 为 50%。 但 是 ， 这 个 模型 也 可 能 产生 y= 1.1 或 y= -0.1 的 预测 结果 ， 这 些 都 不 是 
有 效 的 概率 值 。 


Logistic 回归 将 预测 结果 表示 为 优势 (odds) 而 非 概 率 ， 避 免 了 上 面 提 到 的 问题 。 优 势 是 
什么 ?简单 地 说 ,一 个 事件 的 “优势 ”就 是 该 事件 发 生 概 率 与 不 发 生 概率 的 比值 。 

















因此 ， 如 果 我 认为 自己 支持 的 球 队 有 75% 的 获胜 几率 ， 那 么 就 可 以 说 他 们 的 优势 是 3:1， 
因此 获胜 几率 是 失败 几率 的 3 倍 。 








优势 和 概率 是 同一 信息 的 不 同 表 达 。 给 定 一 个 概率 ， 可 以 用 如 下 公式 计算 优势 : 
o=p/ (1-p) 


给 定 优势 ， 可 以 用 如 下 公式 转换 计算 概率 : 





p= 0 / (o+1) 


Logistic 回归 基于 如 下 模型 ; 








logo=po+HPxiHO2x2+E 








其 中 o 为 特定 结果 的 优势 。 在 预测 新 生 儿 性 别 的 例子 中 ，o 就 是 生男 孩 的 优势 。 


假设 已 经 估计 出 参数 pp、P, 和 Bp，( 稍 后 会 进行 解释 )， 并 给 定 x, 和 >z2 的 值 ， 那 么 可 以 计算 
得 到 log o 的 预测 值 ， 并 转换 为 概率 。 


























0 = np.exp(Log_o) 
p=o/ (orl) 


因此 ， 在 办 公 室 赌 局 中 ， 我 们 可 以 计算 出 生男 孩 的 预测 概率 。 但 是 ， 如 何 进 行 参数 估 
计 呢 ? 


11.7 ”估计 参数 
与 线性 回归 不 同 ，Logistic 回归 没有 闭 式 解 ， 因 此 我 们 只 能 猜测 一 个 初始 解 ， 然 后 逐步 进 
行 优化 。 








第 用 的 优化 目标 是 找到 最 大 似 然 估 计 (maximum-likelihood estimate，MLE)， 即 最 大 化 数 
据 似 然 的 一 组 参数 。 例 如 ， 假 设 有 如 下 数据 : 
>>> y = np.array([0, 1, 0, 1]) 
>>> x1 = np.array([90, 9, 0, 1]) 
>>> x2 = np.array([0, 1, 1, 1]) 
一 开始 我 们 可 以 估计 7 = -1.5， Pb = 2.8, p= 1.1。 
>>> beta = [-1.5, 2.8, 1.1] 
然后 对 每 个 数据 行 计算 Log_o。 


>>> Log_ 0 = beta[0] + beta[1] * x1 + beta[2] * x2 
[-1.5 -0.4 -0.4 2.4] 
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并 将 结果 从 优势 对 数值 转换 为 概率 。 


>>> 0 = np.exp(Log_o) 
[ 0.223 0.670 0.670 11.02 ] 


>>> p = 0 / (o+1) 
[ 0.182 0.401 0.401 0.916 ] 


请 注意 : 当 log_o 大 于 0 时 , o 大 于 1, p 大 于 0.5。 








当 y==1 时 ， 一 个 结果 的 似 然 为 p， 当 y==9 时 ， 结 果 的 似 然 为 1-p。 例 如 ， 如 果 生 男孩 的 概 
率 为 0.8， 结 果 为 男孩 的 似 然 就 是 0.8;， 如 果 结 果 为 女孩 ， 似 然则 为 0.2。 计 算 方 法 如 下 : 


>>> likes =y* p+ (1-y) * (1-p) 
[ 0.817 0.401 0.598 0.916 ] 


数据 的 总 似 然 为 Likes 值 的 乘积 : 
>>> like = np.prod(Likes) 
0.18 
对 于 这 些 beta 值 ， 数 据 的 似 然 为 0.18。Logistic 回归 的 目标 是 找到 使 似 然 最 大 的 参数 。 为 








此 ， 大 多 数 的 统计 软件 包 都 使 用 类 似 Newton 迭代 法 的 解法 (参见 https://en.wikipedia.org/ 


wiki/Logistic_regression#Model_fitting) 8 





11.8 ”实现 


StatsModels 提供 一 个 名 为 Logit 的 Logistic 回归 实现 ， 这 个 方法 实现 将 概率 转换 为 优势 对 
数值 的 函数 ， 因 而 得 名 。 为 了 演示 其 用 法 ， 我 将 寻找 影响 性 别 比率 的 变量 。 


我 仍然 加 载 全 国家 庭 增长 调查 数据 ， 选 择 妊 娠 时 间 超 过 30 周 的 记录 。 






































live, firsts, others = first.MakeFrames() 
df = live[live.prglngth>30] 


logit 要 求 因 变 量 为 双 值 (而 非 布 尔 型 )， 因 此 我 创建 了 一 个 新 列 boy， 用 astype(int) 将 
布尔 值 转换 为 整 型 双 值 。 


df['boy'] = (df.babysex==1).astype(int) 


已 知 影响 性 别 比 率 的 因素 有 : 父母 年 龄 、 出 生 排 行 、 种 族 以 及 社会 地 位 。Logistic 回归 可 
以 检查 这 些 效 应 是 否 出 现在 全 国家 庭 增长 调查 数据 中 。 首 先 ， 从 母亲 年 龄 开始 。 








import statsmodels.formula.api as smf 


model = smf.logit('boy ~ agepreg', data=df) 
results = model.fit() 
SummarizeResults(results) 








logit 使 用 的 参数 与 ots 相同 ， 即 Patsy 语法 书写 的 一 个 公式 ， 以 及 一 个 DataFrame。logit 
的 结果 为 一 个 代表 模型 的 Logit 对 象 。Logit 对 象 的 endog 属性 包含 内 生变 量 (endogenous 
variable) ， 即 因 变 量 ，exog 属性 包含 外 生变 量 (exogenous variable) ， 即 解释 变量 。 这 些 变 


量 都 是 NumPy 数组 ， 有 时 转换 为 DataFrame 会 更 方便 。 





endog = pandas.DataFrame(modeL.endog，coLumns=[modeL.endog_names]) 
exog = pandas.DataFrame(modeL.exog，coLumns=modeL.exog_names) 


model .fit 的 结果 为 BinaryResults 对 象 , 这 个 对 象 与 ols 生成 的 RegressionResult 对 象 相似 。 
结果 的 汇总 信息 如 下 : 
Intercept 0.00579 (0.953) 


agepreg 0.00105 (0.783) 
R^2 6.144e-06 














agepreg 的 参数 为 正 ， 说 明年 龄 较 大 的 母亲 生男 核 的 可 能 性 更 大 , 但 p 值 为 0.783， 说明 这 
一 直观 效应 很 可 能 是 偶然 产生 的 。 





决定 系数 R 不 适用 于 Logistic 回归 ,但 有 几 个 可 作为 “ 伪 R 值 ” 的 度量 。 这 些 值 可 以 用 
于 进行 模型 的 比较 。 例 如 ， 下 面 的 模型 包含 几 个 可 能 与 性 别 比率 相关 的 因素 。 














formula = 'boy ~ agepreg + hpagelb + birthord + C(race)' 
model = smf.logit(formula, data=df) 
results = model.fit() 





除了 母亲 的 年 龄 ， 这 个 模型 还 使 用 了 孩子 出 生 时 父亲 的 年 龄 (hpageLb) 、 孩 子 的 出 生 排 行 
(birthord) ， 以 及 种 族 作为 分 类 变量 。 这 个 模型 的 拟 合 结果 如 下 : 


Intercept -0.0301 (0.772) 
Clrace)[T.2] -0.0224 (0.66) 
Clrace)[T.3] -0.000457 (0.996) 
agepreg -0.00267 (0.629) 
hpagelb 0.0047 (0.266) 
birthord 0.00501 (0.821) 


R^2 0.000144 

















这 些 估计 参数 都 不 是 统计 显著 的 。 结 果 中 的 伪 R 值 略 高 ， 但 也 可 能 是 偶然 导致 的 。 


11.9 ”准确 度 
在 办 公 室 赌局 中 ， 我 们 最 感 兴趣 的 是 模型 的 准确 度 : 与 随机 结果 相 比 ， 成 功 预 测 的 次 数 。 


在 全 国家 庭 增长 调查 数据 中 ， 新 生 儿 男孩 比 女孩 多 ， 因 此 最 简单 的 预测 策略 是 每 次 都 猜 
“男孩 ">。 这 个 策略 的 准确 度 是 男孩 所 占 的 比例 。 


actual = endog['boy'] 
baseline = actual.mean() 
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actual 编码 为 双 值 整数 ， 因 此 其 均值 就 是 男孩 的 比例 ， 为 0.507。 
计算 模型 准确 度 的 方法 如 下 : 














predict = (results.predict() >= 0.5) 
true_pos = predict * actual 
true_neg = (1 - predict) * (1 - actual) 








results.predict 返回 一 个 包含 概率 的 NumPy 数组 ， 四 舍 五 和 人 为 0 或 1。 如 果 预 测 为 男孩 
并 且 结 果 正 确 ， 那 么 predict 乘 以 actual 就 得 到 1， 否则 为 0。 因 此，ture_pos 说 明 “ 真 
且 正 确 ”。 


























同样 ，ture_neg 代表 猜测 女孩 并 结果 正确 。 模 型 的 准确 度 就 是 正确 猜测 的 比例 。 





acc = (sum(true_pos) + sum(true_neg)) / len(actual) 

















得 到 的 结果 为 0.512， 比 基线 0.507 略 高 。 但 是 ， 这 个 结果 不 能 太 当 真 。 我 们 使 用 同样 的 数 
据 构 建 和 检验 这 个 模型 ， 因 此 ， 这 个 模型 可 能 对 新 数据 并 不 具有 预测 能 

无 论 如 何 ， 还 是 让 我 们 使 用 这 个 模型 来 进行 办 公 室 赌局 的 预测 。 假 设 这 位 怀孕 的 同事 35 
岁 ， 白人 ， 丈夫 39 岁 ， 这 是 他 们 的 第 3 个 孩子 。 








columns = ['agepreg', 'hpagelb', 'birthord', 'race'] 
new = pandas.DataFrame([[35, 39, 3, 2]], columns=columns) 
y = results.predict(new) 





调用 results.predict 进行 新 的 预测 ， 必 须 构建 一 个 DataFrame， 为 模型 中 的 每 个 变量 提供 
一 列 。 这 个 预测 的 结果 是 0.52， 因 此 你 应 该 猜 “ 男 孩 ”。 但 是 ， 即 便 这 个 模型 真 的 能 提高 
获胜 机 会 ， 区 别 也 是 非常 微小 的 。 


11.10 ”练习 


本 章 练习 的 参考 答案 位 于 chapllsoln.ipynb 中 。 




















。 练习 11.1 

假设 你 的 一 位 同事 怀孕 待产 ， 办 公 室 发 起 了 一 个 赌局 ， 预 测 孩 子 的 出 生日 期 。 假 定 在 产妇 
妊娠 的 第 30 周 下 注 ， 可 以 使 用 什么 变量 进行 最 佳 预测 ? 你 只 能 使 用 在 孩子 出 生前 就 已 知 
的 变量 ， 而 且 是 大 家 都 能 得 到 的 信息 。 











。 练习 11.2 

Trivers-Willard 假设 认为 ， 很 多 哺乳 动物 的 性 别 比率 取决 于 “ 母 方 条 件 ”， 即 如 母亲 的 年 
龄 、 体 型 、 健 康 状 况 以 及 社会 地 位 等 因素 。 请 参见 https://en.wikipedia.org/wiki/Trivers- 
Willard_hypothesis 。 

































































一 些 研究 显示 这 一 效应 在 人 类 中 也 存在 ， 但 结果 并 不 明晰 。 本 章 检验 了 与 这 些 因素 相关 的 
一 些 变量 ， 但 并 未 发 现 这 些 变量 对 性 别 比率 产生 了 任何 统计 显著 的 效应 。 

作为 练习 ， 请 使 用 数据 挖掘 方法 ， 检 验 妊 娠 数据 文件 和 调查 参与 者 文件 中 的 其 他 变量 。 你 
能 找到 具有 显著 效应 的 因素 吗 ? 

。 练习 11.3 

如 果 要 进行 的 预测 是 一 个 计数 值 ， 则 可 以 使 用 Poisson 回归 。StatsModels 的 poisson 函数 
实现 了 Poisson 回归 ， 用 法 与 ols 和 logit 相同 。 作 为 练习 ， 请 使 用 poisson 函数 预测 一 位 
妇女 生育 了 几 个 孩子 。 在 全 国家 庭 增长 调查 数据 集中 ， 这 个 变量 是 numbabes。 

假设 有 一 位 妇女 ，35 岁 ， 黑 人 ， 大 学 毕业 ， 年 均 家 庭 收 入 超过 75 000 美元 ， 请 预测 这 位 
妇女 已 经 生育 了 几 个 孩子 。 

。 练习 11.4 

如 果 要 预测 的 是 类 别 ， 则 可 以 使 用 多 项 式 Logistic 回归 。StatsModels 的 mntogit 函数 实现 























因 











状态 : 已 婚 、 同 


了 多 项 式 Logistic 回归 。 作 为 练习 ， 请 使 用 mntogit 预测 一 位 妇女 的 婚 胡 
居 、 守 寡 、 离 异 、 分 居 或 未 婚 。 在 全 国家 庭 增长 调查 数据 集中 ， 记 录 婚 姻 状 况 的 编码 变量 
为 rmarital。 


假设 有 一 位 妇女 ，25 岁 ， 白 人， 高 中 毕业 ， 年 均 家 庭 收 入 约 为 45 000 美元 ， 请 预测 这 位 


妇 





女 已 婚 的 概率 、 同 居 的 概率 ， 等 等 。 


1.11 术语 


回归 (regression) 


估计 模型 参数 以 拟 合 数据 的 几 个 相关 过 程 之 一 。 


变量 (dependent variable) 
回归 模型 中 ， 希 望 进行 预测 的 变量 ， 也 称 为 内 生变 量 。 


解释 变量 (explanatory variable) 





简单 回归 (simple regression) 
只 有 一 个 因 变 量 和 一 个 解释 变量 的 回归 。 











多 重 回归 (multiple regression) 
有 多 个 解释 变量 ， 但 只 有 一 个 因 变 量 的 回归 。 








用 于 预测 或 解释 因 变 量 的 变量 ， 也 称 为 自 变 量 或 外 生变 量 。 
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线性 回归 (linear regression ) 


基于 线性 模型 的 回归 。 











通 最 小 二 乘法 (ordinary least square) 
通过 最 小 化 残 差 的 均 方 误 差 ， 进 行 参数 估计 的 线性 回归 。 
关 





关系 〈Spurious relationship) 
a 


两 个 变量 间 的 关系 ， 由 统计 结果 造成 ， 或 由 模型 之 外 但 与 两 个 变量 都 相关 的 因素 导致 。 








控制 变量 (control variable) 


回归 中 的 变量 ， 用 于 消除 或 “控制 ” 伪 关 系 。 





代理 变量 (proxy variable) 
因 与 其 他 因素 相关 ， 成 为 该 因素 的 代理 ， 从 而 对 回归 模型 产生 间接 影响 的 变量 。 


























分 类 变量 (categorical variable) 

一 种 变量 ， 取 值 为 一 组 无 序 的 离散 值 之 一 。 

连接 (join) 

使 用 一 个 键 值 匹配 数据 行 ， 结 合 两 个 DataFrame 中 的 操作 。 





数据 挖 据 (data mining ) 
通过 检验 大 量 模 型 寻找 变量 关系 的 方法 。 


Logistic 回归 (logistic regression ) 


因 变 量 为 布尔 型 时 使 用 的 一 种 回归 。 














局 


oisson 回归 (Poisson ogression) 


因 变 量 为 非 负 整数 (通常 为 一 个 计数 值 ) 时 使 用 的 一 种 回归 。 
































优势 (odds) 
概率 p 的 另 一 种 表示 方法 ， 即 概率 与 其 补 值 的 比率 ，p/(1-p)。 
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时 间 序 列 分 析 





时 间 序 列 (time series) 是 来 自 随时 间 变 化 的 系统 的 一 系列 度量 。 展 示 全 球 平均 温度 变化 的 
“曲棍球 棒 图 ”就 是 一 个 时 间 序 列 的 著名 示例 (参见 https://en.wikipedia.org/wiki/Hockey_ 
stick_graph ) 。 

















本 章 使 用 的 示例 来 自 Zachary M. Jones。Jones 是 一 位 研究 美国 大 麻 黑 市 的 政治 学 者 (http:// 
zmjones.com/marijuana)， 他 的 数据 来 自 一 个 名 为 “ 草 价 ”(price of weed) 的 网 站 ， 这 个 
网 站 请 参与 者 报告 大 麻 交 易 的 价格 、 数 量 、 质 量 和 地 点 ， 以 此 收集 市 场 信息 (http://www. 
priceofweed.com/)。Jones 的 研究 目的 是 调查 像 大 麻 合 法 化 这 样 的 政策 性 决定 会 对 市 场 产生 
何 种 影响 。 这 个 研究 项 目 用 数据 解答 重要 的 政策 问题 ， 如 药品 政策 问题 ， 这 让 我 产生 了 很 
大 的 兴趣 。 


























我 希望 你 对 本 章 内 容 感 兴趣 ， 但 还 是 要 借 此 机 会 重申 对 数据 分 析 保 持 专业 态度 的 重要 性 。 
药品 是 否 非法 ， 哪 些 药品 应 当 属 于 非法 ， 这 是 很 重要 而 又 难以 回答 的 公共 政策 问题 ， 人 们 
应 当 基 于 诚实 准确 的 数据 进行 决策 。 


本 章 代码 位 于 timeseries.py 中 。 前 言 介 绍 了 如 何 下 载 和 使 用 本 书 代码 。 
妾 :小米 
12.1 导入 和 清洗 数据 


从 Jones 先生 的 网 站 下 载 的 数据 存放 在 本 书 代 码 库 中 。 下 面 的 代码 将 这 些 数据 读 取 到 一 个 
pandas DataFrame 中 : 





transactions = pandas.read_csv('mj-cLean.csv'，parse_dates=[5]) 
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parse_dates 参数 告诉 read_csv 方法 将 第 5 列 中 的 值 作为 日 期 读 取 ， 并 转换 为 NumPy 的 


datetime64 对 象 。 
这 个 DataFrame 中 每 一 行 都 代表 一 次 交易 ， 具 有 如 下 列 。 


。 city 
字符 串 ， 代 表 城 市 名 。 





。 State 
州 名 的 两 字母 缩写 。 
。 price 
交易 价格 ， 单 位 为 美元 。 
。 amount 
购买 量 ， 单 位 为 克 。 
。 quality 
由 购买 者 汇报 的 货品 质量 ， 值 为 高 、 中 或 低 。 
。 date 


汇报 日 期 ， 这 个 日 期 应 该 在 购买 日 期 后 不 久 。 


” pp8g 
每 克 价 格 ， 单 位 为 美元 。 
。 State.name 
字符 串 ， 代 表 州 名 。 
。 lat 
交易 发 生地 点 的 大 致 纬度 ， 由 城市 名 获得 。 





。 lon 


交易 发 生地 点 的 大 致 经 度 。 








每 次 交易 都 是 一 个 时 间 事 件 ， 因 此 这 个 数据 集 可 以 看 成 一 个 事件 序列 
生 的 时 间 并 不 均匀 ， 每 天 汇报 的 交易 数 从 0 到 数 百 不 等 。 很 多 分 析 时 间 序 列 的 方法 要 求 度 





量 是 均匀 分 布 的 ， 或 者 度量 均匀 分 布 至 少 可 以 使 分 析 更 为 简单 。 





。 但是， 这些 事件 发 


为 了 演示 这 些 方法 ， 我 将 这 个 数据 集 按 照 汇 报 的 质量 分 组 ， 并 计算 每 克 的 日 均 价 格 ， 将 每 





组 数据 转换 为 均匀 分 布 的 序列 。 


def GroupByQuaLityAndDay(transactions ) : 
groups = transactions.groupby('quality') 
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dailies = {} 
for name, group in groups: 
dailies[name] = GroupByDay(group) 


return dailies 


groupyb 是 DataFrame 的 方法 ， 返 回 一 个 GroupBy 对 象 groups。groups 用 在 for 循环 中 ， 
可 以 遍历 各 组 的 名 字 及 其 DataFrame。 由 于 quaLity 列 的 取 值 为 Low、medtum 和 high， 因 
此 得 到 的 3 个 组 名 ， 即 为 low、medium 和 high。 

















循环 遍历 这 些 组 ， 并 调用 GroupByDay 方法 ， 计 算 日 平均 价格 ， 返 回 一 个 新 的 DataFrame。 





def GroupByDay(transactions, func=np.mean): 
grouped = transactions[['date', 'ppg']].groupby('date') 
daily = grouped.aggregate(func) 


daily['date'] = daily.index 

start = daily.date[0] 

one_year = np.timedelta64(1, 'Y') 

daily['years'] = (daily.date - start) / one_year 


return daily 


参数 transaction 是 包含 date 和 ppg 列 的 DataFrame。 代 码 选择 这 两 列 ， 然 后 按 date 


分 组 。 


得 到 的 grouped 是 一 个 映射 ， 将 每 个 日 期 对 应 到 包含 该 日 期 汇报 价格 的 DataFrame。 
aggregate 是 GroupBy 的 方法 ， 饥 历 所 有 的 组 ， 并 对 组 中 每 列 都 执行 一 个 国 数 。 在 
GroupByDay 方法 中 ，grouped 组 中 只 有 一 列 ppg。 因 此 ，aggregate 生成 的 DataFrame 只 有 
一 列 ppg， 每 个 日 期 有 一 行 数据 。 


这 些 DataFrame 中 的 日 期 存储 为 NumPy datetime64 对 象 ， 为 64 位 整数 ， 包 含 该 日 期 的 十 
亿 分 之 一 秒 值 。 对 于 稍 后 介绍 的 一 些 分 析 方 法 ， 使 用 人 们 易于 理解 的 时 间 单 位 〈 例 如 年 ) 
更 加 方便 。 因 此 ，GroupByDay 通过 复制 index 增加 一 个 新 列 date， 然 后 增加 一 个 years 列 ， 
将 距 第 一 次 交易 日 期 的 年 数 存储 为 浮 点 数 。 


























GroupByDay 方法 得 到 的 DataFrame 包含 列 ppg、date 和 years。 


12.2 绘制 图 形 


GroupByQualityAndDay 得 到 的 结果 是 从 每 个 质量 级 别 到 日 均 价格 DataFrame 的 映射 。 绘 制 
这 3 个 时 间 序 列 的 代码 如 下 : 





thinkplot.Preplot(rows=3) 
for i, (name, daily) in enumerate(dailies.items()): 
thinkplot.SubpPlot(i+1) 
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1 


title = "price per gram ($)' if i==0 else 
thinkplot.Config(ylim=[0, 20], title=title) 
thinkplot.Scatter(daily.index, daily.ppg, s=10, label=name) 
if i == 2: 

pyplot.xticks(rotation=30) 
else: 

thinkplot.Config(xticks=[]) 





PrePlot 使 用 参数 rows=3， 说 明 要 在 3 行 绘制 3 个 图 形 。 循 环 遍 历 dailies 中 的 DataFrame， 
为 每 个 DataFrame 绘制 一 个 散 点 图 。 绘 制 时 间 序 列 时 ， 一 种 常见 做 法 是 在 点 之 间 连 上 线 
段 。 但 本 示例 dailies 中 DataFrame 的 数据 点 很 多 ， 而 且 价格 变化 很 大 ， 因 此 添加 线段 并 
没有 什么 用 处 。 

由 于 横 轴 上 的 标签 是 日 期 ， 因 此 代码 中 使 用 pyplot.xticks， 此 外 将 刻度 旋转 30 度 ， 能 使 
其 更 加 易 读 。 


图 12-1 展示 了 代码 运行 的 结果 。 这 些 图 形 有 个 明显 的 特点 : 2013 年 11 月 附近 有 一 个 缺 
口 。 这 可 能 是 因为 那 段 时 间 没 有 进行 数据 收集 ， 或 者 无 法 获得 数据 。 我 们 稍 后 将 讨论 处 理 
这 种 缺失 数据 的 方法 。 
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12-1: 高 、 中 、 低 质量 大 麻 的 每 克 每 日 价格 时 间 序 列 
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从 图 中 我 们 可 以 看 到 ， 这 上 段 时 间 内 ， 高 质量 大 麻 的 价格 似乎 在 降低 ， 中 等 质量 大 麻 的 价格 
在 提高 。 低 质量 大 麻 的 价格 似乎 也 在 提高 ， 但 其 价格 变化 过 大 ， 很 难 判 断 趋势 。 请 记 住 ， 
大 麻 质 量 的 数据 是 由 志愿 者 提供 的 ， 因 此 ， 这 些 随时 间 变 化 的 趋势 可 能 反映 了 参与 者 判断 
标准 的 变化 。 


12.3 ”线性 回归 

虽然 时 间 序 列 分 析 有 专门 的 方法 ， 但 是 对 于 很 多 问题 ， 简 单 的 方法 是 首先 使 用 通用 的 工 
具 ， 如 线性 回归 。 下 面 的 函数 以 每 日 价格 的 DataFrame 为 参数 ， 计 算 一 个 最 小 二 乘法 拟 
合 ， 返 回 使 用 StatsModels 包 得 到 的 模型 和 结果 对 象 。 






























































def RunLinearModel(daily): 
modeL = smf.ols('ppg ~ years', data=daily) 
results = model.fit() 
return model, results 


然后 ， 我 们 可 以 遍历 dailies 中 的 DataFrame， 为 每 个 DataFrame 拟 合 模型 。 


for name, daily in dailies.items(): 
model, results = RunLinearModel(daily) 
print(name) 
regression.SummarizeResults(results) 








结果 如 下 

质量 截 距 斜率 R’ 
高 13.450 —0.708 0.444 
中 8.879 0.283 0.050 
低 5.362 0.568 0.030 


估计 所 得 斜率 说 明 ， 在 观测 区 间 内 ， 高 质量 大 麻 的 价格 每 年 下 降 约 71%， 中 等 质量 大 麻 的 
价格 每 年 上 涨 约 28%， 低 质量 大 麻 价 格 每 年 上 涨 57%。 这 些 估计 值 都 是 统计 显著 的 , p 值 
很 小 。 























高 质量 大 麻 的 R 值 为 0.44， 说 明 以 时 间 为 解释 变量 ， 可 以 解释 所 观测 到 的 价格 变化 的 
44%。 其 他 两 类 的 价格 变化 较 小 ， 价 格 可 变性 较 高 ， 因 此 R 值 较 小 (但 仍然 是 统计 显 
著 的 )。 


下 面 的 代码 绘制 了 观测 到 的 价格 以 及 拟 合 值 : 














7 




















def PlotFittedValues(model, results, label="''): 
years = model.exog[:,1] 
vaLues = model.endog 
thinkplot.Scatter(years, values, s=15, label=label) 
thinkplot.Plot(years, results.fittedvalues, label='model') 
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如 11.8 节 介 绍 的 ，model 包含 exog 和 endog， 这 两 个 NumPy 数据 包含 外 生变 量 ( 即 解释 
变量 ) ， 以 及 内 生变 量 ( 即 因 变 量 )。 

















PlotFittedValues 绘制 数据 点 的 散 点 图 以 及 拟 合 值 的 线 图 。 图 12-2 展示 了 高 质量 大 麻 的 绘 
制 结果 。 




















拟 合 值 

















图 12-2: 高 质量 大 麻 每 克 每 日 价格 的 时 间 序 列 以 及 线性 最 小 二 乘法 拟 合 


图 中 的 模型 似乎 很 好 地 拟 合 了 数据 ， 然 而 ， 线 性 回归 并 不 是 拟 合 这 种 数据 的 最 适宜 方法 ， 
原因 如 下 。 





。 首先 ， 预 期 长 期 趋势 为 线性 的 或 符合 其 他 简单 函数 ， 这 是 没有 依据 的 。 通 常 ， 价 格 由 供 
需 关系 决定 ， 而 供给 和 需求 都 会 随 着 时 间 发 生 不 可 预期 的 变化 。 

。 其 次 ， 线 性 回归 模型 对 所 有 数据 使 用 同样 的 权重 ， 不 管 是 过 去 的 还 是 近期 数据 。 在 进行 
预测 时 ， 近 期 数据 也 许 应 该 得 到 更 多 的 权重 。 

。 最 后 ， 线 性 回归 假设 残 差 是 无 关 的 噪音 。 而 在 时 间 序 列 数据 中 ， 相 邻 数据 是 相关 的 ， 这 
项 假设 通常 不 能 成 立 。 














下 一 节 将 介绍 更 适合 时 间 序 列 数据 的 分 析 方 法 。 


12.4 移动 平均 值 


大 部 分 时 间 序 列 分 析 基 于 的 建 模 假设 都 认为 ， 观 测序 列 是 三 部 分 的 总 和 。 
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。 趋势 
描述 持续 变化 的 一 个 平滑 函数 。 


。 季节 性 
周期 性 的 变化 ， 可 能 包括 每 日 、 每 周 、 每 月 或 每 年 周期 。 





。 噪音 


长 期 趋势 周围 的 随机 变化 。 


如 前 
单 函 
互 重 


四 .AAA 


最 简 
如 ， 

















一 节 介 绍 的 ， 回 归 是 从 一 个 序列 中 获取 趋势 的 方法 。 但 是 ， 如 果 这 个 趋势 不 是 一 个 简 
数 ， 那 么 一 个 很 好 的 方法 是 移动 平均 值 (moving average)。 移 动 平均 值 将 序列 分 为 相 
又 的 区 域 ( 称 为 窗口 ， 即 window) ， 计 算 每 个 窗口 的 平均 值 。 





单 的 移动 平均 值 是 滚动 均值 rolling mean) ， 滚 动 均值 计算 每 个 窗口 中 值 的 均值 。 例 
如 果 窗 口 大 小 为 3， 那 么 深 动 均值 就 计算 值 0 到 值 2 的 均值 ， 值 1 到 值 3 的 均值 ， 值 






































2 到 值 4 的 均值 ， 依 此 类 推 。 


pandas 提供 roLLing_mean 方法 ， 参 数 为 Series 和 窗口 大 小 ， 返 回 一 个 新 的 Series。 


返回 
和 3 
在 对 
天 缺 
我 们 
析 》 








第 一 
建 一 
缺失 


下 面 

















>>> series = np.arange(10) 
array([0，1，2，3，4，5，6，7，8，9]) 


>>> pandas.rolling_mean(series, 3) 
array([ nan, nan, 1 2 3 ‘4 3» 6x 7s 8]) 





Series 的 前 两 个 值 为 nan， 随 后 的 值 是 前 三 个 元 素 0、1 和 2 的 均值 ， 再 往 后 是 1、2 
的 均值 ， 以 此 类 推 。 




















大 麻 数 据 使 用 roLLing_mean 方法 之 前 ， 必 须 首 先 处 理 缺 失 数 据 。 在 观测 时 间 中 ， 有 几 
少 一 个 或 多 个 质量 分 类 的 报告 交易 ，2013 年 有 一 段 时 间 没 有 数据 。 


目前 使 用 的 DataFrame 缺少 这 些 数据 ， 索 引 跳 过 了 没有 数据 的 日 期 。 为 了 随后 的 分 
我 们 需要 明确 标明 这 些 缺 失 数 据 ， 为 此 ， 可 以 对 DataFrame 进行 “重建 索引 1”。 





hes 





dates = pandas.date_range(daily.index.min(), daily.index.max()) 
reindexed = daily.reindex(dates) 


行 代码 计算 一 个 日 期 范围 ， 其 中 包含 从 观测 时 间 开 始 到 结束 的 每 一 天 。 第 二 行 代码 创 
个 新 的 DataFrame， 其 中 包含 daily 中 的 所 有 数据 ， 日 期 范围 中 的 每 一 天 都 对 应 一 行 ， 
数据 用 nan 填充 。 


的 代码 绘制 了 滚动 均值 


























roll_mean = pandas.rolling mean(reindexed.ppg, 30) 
thinkplot.Plot(roll_mean.index, roll_mean) 
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窗口 大 小 为 30， 因 此 roll_mean 中 的 每 个 值 都 是 reindexed.ppg 中 30 个 值 的 均值 。 

















图 12-3 ( 左 ) 展示 了 代码 运行 结果 。 滚 动 均 值 似 乎 很 好 地 对 噪音 进行 了 平滑 处 理 ， 提 取出 



































了 趋势 。 前 29 个 值 为 nan， 缺 失 数 据 的 部 分 也 有 29 个 nan。 这 些 空缺 可 以 使 用 一 些 方法 进 


行 填充 ， 但 不 处 理 也 无 关 紧 要 。 
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图 12-3: 每 日 价格 、 滚 动 均值 ( 左 ) 和 指数 权重 移动 平均 ( 右 ) 


另 一 种 移动 平均 值 是 指数 权重 移动 平均 (exponentially-weighted moving average, EWMA)。 


指数 权重 移动 平均 有 两 个 优点 : 首先 ， 如 其 名 所 示 ， 指 数 权重 移动 平均 计算 加 权 平 均值 





























最 近 的 值 具有 最 高 的 权重 ,之 前 值 的 权重 指数 级 降低 ， 第 二 ，pandas 的 EWMA 实现 可 以 














较 好 地 处 理 缺 失 值 。 





ewma = pandas.ewma(reindexed.ppg, span=30) 


thinkpLot.PLot(ewma.index，ewma) 


参数 span 大 致 等 同 于 移动 平均 值 的 窗口 大 小 。 这 个 参数 控制 权重 降低 的 速度 ， 因 此 决定 了 








对 每 个 平均 值 产生 不 可 忽略 作用 的 值 点 数 














图 12-3 ( 右 ) 展示 了 同样 数据 使 用 EWMA 方法 的 分 析 结 果 。 在 有 数据 的 部 分 ， 右 侧 结果 


与 左 侧 类 似 ， 但 是 右 侧 图 形 没 有 缺失 值 ， 
数据 点 较 少 ， 因 此 噪声 较 大 。 


12.5 缺失 值 














得 到 时 间 序 列 趋 势 后 ， 下 一 步 就 要 研究 其 








目 。 























从 而 更 容易 使 用 。 时 间 序 列 开始 部 分 的 值 基于 的 


季节 性 ， 即 周期 性 行为 。 基 于 人 类 行为 的 时 间 序 





列 数据 经 常 展 现 出 每 日 、 每 周 、 每 月 或 每 年 的 周期 。 下 一 节 将 介绍 检验 季节 性 的 方法 ， 但 
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这 些 方 法 会 受到 缺失 数据 的 影响 ， 因 此 我 们 需要 首先 解决 缺失 值 的 问题 


填充 缺失 数据 ， 一 个 简单 常用 的 方法 是 使 用 移动 平均 值 。Series 的 方法 fiLtLna 就 实现 了 这 
一 功能 。 





reindexed.ppg.fillna(ewma, inplace=True) 


fillna 将 reindexed.ppg 中 的 nan 替换 为 ewma 中 的 相应 值 。inplace 参数 告诉 fillna 直接 修 
改 现 有 的 Series， 而 不 是 创建 新 的 Series。 


这 一 方法 的 缺点 是 弱化 了 序列 中 的 噪音 ， 这 一 问题 可 以 通过 添加 重 抽样 的 残 差 解决 。 








resid = (reindexed.ppg - ewma).dropna() 
fake_data = ewma + thinkstats2.Resample(resid, len(reindexed)) 
reindexed.ppg.fillna(fake_data, inplace=True) 


resid 包含 残 差 .但 不 包括 ppg 为 nan 的 日 期 。fake_data 包含 移动 平均 值 的 结果 与 残 差 的 
一 个 随机 样本 的 和 。 最 后 ，finllna 将 nan 替换 为 fake_data 中 的 值 。 


图 12-4 展示 了 填充 数据 后 的 结果 。 填 充 数 据 看 起 来 与 实际 数据 非常 相似 。 由 于 重 抽样 的 
残 差 是 随机 的 ， 因 此 每 次 填充 的 结果 都 不 同 。 我 们 稍 后 将 讨论 如 何 描述 由 缺失 数据 导致 的 
误差 。 
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图 12-4: 填充 数据 后 的 每 日 价格 
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12.6 序列 相关 

随 着 价格 每 日 变化 ， 你 可 能 会 期 望 看 到 一 些 模 式 。 如 果 周 一 价格 很 高 ， 可 能 随后 儿 天 都 会 
较 高 ， 如 果 价 格 很 低 ， 可 能 会 保持 低位 。 在 这 种 模式 中 ， 每 个 值 都 与 序列 中 的 下 一 个 值 相 
关 ， 因 此 称 为 序列 相关 (serial correlation ) 。 


要 计算 序列 相关 ， 我 们 可 以 将 时 间 序列 移动 一 个 称 为 滞后 (lag) 间隔 ， 然 后 计算 移动 后 的 
序列 与 原 序列 的 相关 性 。 














def SerialCorr(series, lag=1): 
xs = series[lag:] 
ys = series.shift(lag)[lag:] 
corr = thinkstats2.Corr(xs, ys) 
return corr 








移动 后 的 序列 中 ， 前 tag 个 值 都 为 nan， 因 此 代码 在 计算 Corr 之 前 会 将 前 tag 个 值 移 除 。 












































如 果 使 用 原始 的 价格 数据 ， 以 lag 为 1 运行 Serialcorr， 得 到 的 结果 为 : 高 质量 大 麻 的 序 
列 相关 为 0.48， 中 等 质量 的 为 0.16， 低 质量 的 为 0.10。 任 何 具 有 长 期 趋势 的 时 间 序 列 都 具 
有 很 强 的 序列 相关 。 例 如 ， 如 果 价 格 走低 ， 序 列 前 半 部 分 值 会 高 于 均值 ， 而 后 半 部 分 值 低 
于 均值 。 


更 有 意思 的 是 ， 减 去 这 个 趋势 后 ， 检 验 这 种 相关 是 否 依然 存在 。 例 如 ， 我 们 可 以 算出 这 
EWMA 的 残 差 ， 然 后 计算 其 序列 相关 。 
































ewma = pandas.ewma(reindexed.ppg, span=30) 
resid = reindexed.ppg - ewma 
corr = SerialCorr(resid, 1) 


在 1ag=1 时 , 减 去 趋势 后 数据 的 序列 相关 为 : 高 质量 为 -0.022， 中 等 质量 为 -0.015， 低 质 
量 为 0.036。 这 些 值 都 很 小 ， 说 明 序列 中 的 一 pe 


使 用 不 同 的 沾 后 值 ， 可 以 检验 序列 的 每 周 、 每 月 和 每 年 的 季 市 性 特征 。 具 体 结果 如 下 : 








滞后 ”高 质量 中 等 质量 ” 低 质 量 





1 —0.029 —0.014 0.034 

26 0.02 —0.042 一 0.0097 
30 0.014 -0.0064 -0.013 
365 0.045 0.015 0.033 

















下 一 节 将 检验 这 些 相关 是 否 统计 显著 〈 结 果 不 是 )， 现 在 我 们 可 以 暂时 认为 ， 这 些 序列 没 
有 显著 的 季 市 性 模式 ， 至 少 在 使 用 上 述 沸 后 值 时 没有 。 
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12.7 自 相关 


如 果 你 认为 一 个 序列 可 能 具有 一 定 的 序列 相关 ， 但 却 不 知道 该 使 用 哪些 沿 后 值 进行 检验 ， 
那 就 可 以 全部 检验 一 遍 ! 自 相 关 函 数 (autocorrelation function) 将 请 后 值 映射 到 使 用 该 值 
得 到 的 序列 相关 。 “ 自 相 关 ” 是 序列 相关 的 另 一 个 名 字 ， 常 用 于 滞后 值 不 为 工时 。 


11.1 节 使 用 StatsModels 进行 线性 回归 。 这 个 软件 包 也 提供 时 间 序 列 分 析 国 数 ， 其 中 有 计 
算 自 相关 函数 的 acf 。 












































import statsmodels.tsa.stattools as smtsa 
acf = smtsa.acf(filled.resid, nlags=365, unbiased=True) 





acf 使 用 从 0 到 nlags 的 请 后 值 计算 序 列 相 关 。 参 数 unbiased 为 True， 告 诉 acf 要 为 样本 
规模 校正 估计 值 。acf 的 结果 是 一 个 相关 性 数组 。 如 果 选 择 高 质量 大 麻 的 每 日 价格 ， 抽 取 
滞后 为 1、7、30 和 365 的 相关 值 ， 就 可 以 验证 acf 和 SeriatLCorr 得 到 的 结果 大 致 相同 。 


























>>> acf[0], acf[1], acf[7], acf[30], acf[365] 
1.000, -0.029, 0.020, 0.014, 0.044 


1ag=9 时 ，acf 计算 的 是 序列 与 自身 的 相关 ， 这 个 值 总 是 为 1。 


图 12-5 ( 左 ) 展示 了 ntags=40 时 ，3 种 质量 分 类 的 自 相关 函数 。 图 中 的 灰色 区 域 是 不 存在 
自 相 关 时 的 正 态 可 变性 ， 位 于 这 个 区 域 之 外 的 都 是 统计 显著 的 ,，p 值 小 于 5%。 误 报 率 为 
5%， 因 此 计算 120 个 相关 时 (3 个 时 间 序 列 ， 每 个 序列 有 40 个 浊 后 值 );， 大 约会 有 6 个 点 
在 灰色 区 域 之 外 。 实 际 上 ， 图 中 有 7 个 点 在 灰色 区 域外 。 我 们 据 此 认为 ， 在 这 些 序 列 中 ， 
不 存在 无 法 用 偶然 性 解释 的 自 相 关 。 
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图 12-5: 每 日 价格 的 自 相关 函数 ( 左 ) 及 模拟 的 每 周 季节 性 的 每 日 价格 〈 右 ) 
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灰色 区 域 是 通过 对 残 差 重 抽样 计算 得 到 的 。 有 具体 代码 位 于 timeseries.py 中 ， 函 数 名 为 


SimuLateAutocorreLation。 








为 了 展示 存在 季节 性 因素 的 自 相 关 函 数 ， 我 在 数据 中 加 入 一 个 每 周 的 循环 进行 模拟 。 假 设 
在 周末 时 大 麻 的 需求 量 较 大 ， 那 么 价格 可 能 会 较 高 。 为 了 模拟 这 个 效果 ， 我 选取 了 周 五 或 
周 六 的 日 期 ， 在 价格 上 添加 一 个 随机 量 ， 这 个 随机 量 选 自从 0~2 美元 的 均匀 分 布 。 








def AddWeeklySeasonality(daily): 

frisat = (daily.index.dayofweek==4) | (daily.index.dayofweek==5) 

fake = daily.copy() 

fake.ppg[frisat] += np.random.uniform(0, 2, frisat.sum()) 

return fake 
frisat 是 一 个 布尔 型 Series， 如 果 日 期 为 周 五 或 周 六 ， 则 值 为 True。fake 是 一 个 新 的 
DataFrame， 从 daily 复制 而 来 ， 而 后 对 ppg 添加 随机 值 进行 修改 。frisat.sum() 是 周 五 和 
周 六 日 期 的 总 数 ， 也 就 是 需要 生成 的 随机 值 的 数量 。 
12-5 ( 右 ) 展示 出 添加 了 模拟 季节 性 的 价格 自 相关 函数 。 正 如 我 们 预期 的 ， 当 沸 后 为 7 
的 倍数 时 ， 相 关 性 最 高 。 对 于 高 质量 和 中 等 质量 大 麻 ， 新 得 到 的 相关 是 统计 显著 的 。 而 低 
质量 大 麻 则 不 然 ， 因 为 这 一 分 类 的 残 差 最 大 ， 必 须 使 用 更 大 的 模拟 值 ， 才 能 使 效应 在 噪音 
中 显现 出 来 。 


12.8 预测 
时 间 序 列 分 析 可 以 用 于 调查 ， 有 了 时 也 可 用 于 解释 随时 间 变 化 的 系统 行为 。 时 间 序 列 分 析 还 
可 用 于 预测 。 


12.3 市 中 使 用 的 线性 回归 可 以 用 于 预测 。RegressionResults 类 提供 predict 方法 ， 以 包含 
解释 变量 的 DataFrame 为 参数 ， 返 回 一 个 预测 序列 。 使 用 方法 如 下 : 


















































def GenerateSimpleprediction(results, years): 
n = Len(years) 
inter = np.ones(n) 
d = dict(Intercept=inter, years=years) 
predict df = pandas.DataFrame(d) 
predict = results.predict(predict_df) 
return predict 


results 是 一 个 RegressionResults 对 象 ，years 是 竺 预测 的 时 间 值 序列 。 这 个 函数 构建 一 个 
DataFrame， 将 其 传 给 predict 方法 ， 并 返回 得 到 的 结果 。 


























如 果 我 们 希望 得 到 的 只 是 单一 的 、 最 佳 推测 预测 ， 那 么 上 面 的 函数 就 可 以 满足 需求 。 但 
是 ， 大 部 分 时 候 我 们 还 需要 对 误差 进行 量化 ， 即 希望 得 知 预测 结果 的 准确 性 如 何 。 


我 们 需要 考虑 三 种 误差 来 源 。 
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。 抽样 误差 
预测 基于 估计 参数 ， 而 估计 参数 依赖 样本 中 的 随机 变异 。 如 果 重 复 进行 实验 ， 估 计 值 会 
发 生变 化 。 





























。 随机 变异 
即使 估计 参数 是 完美 的 ， 观 测 数 据 也 会 在 长 期 趋势 附近 随机 变动 ， 这 种 变异 在 未 来 也 会 
持续 出 现 。 


。 建 模 误差 
前 面 已 经 有 示例 证 明 长 期 趋势 不 是 线性 的 ， 因 此 ， 基 于 线性 模型 的 预测 终究 会 失败 。 


男 一 种 误差 来 源 于 无 法 预期 的 未 来 事件 。 农 产品 价格 受 天 气 影响 ， 所 有 的 价格 都 会 受 政 策 
和 法 律 影响 。 在 本 书 编撰 时 ， 美 国 已 经 有 两 个 州 宣布 大 麻 合 法 ， 还 有 20 多 个 州 宣布 医用 
大 麻 合 法 。 如 果 更 多 的 州 宣布 大 麻 合 法 化 ， 那 么 大 麻 价 格 很 可 能 会 下 跌 。 但 是 ， 如 果 联 邦 
政府 要 打击 大 麻 交 易 ， 价 格 则 可 能 会 上 涨 。 
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建 模 误差 和 无 法 预期 的 未 来 事件 很 难 量 化 。 而 抽样 误差 和 随机 变异 较 容 易 处 理 ， 因 此 我 们 
先 来 处 理 这 两 种 误差 。 


我 依然 采用 10.4 市 中 用 过 的 重 抽样 方法 对 抽样 误差 进行 量化 。 和 往常 一 样 ， 重 抽样 的 目的 
是 使 用 实际 观测 来 模拟 重复 进行 实验 时 可 能 得 到 的 数据 。 这 种 模拟 基于 的 假设 是 ， 估 计 参 
数 是 正确 的 ， 但 随机 残 差 可 能 会 不 同 。 实 现 这 种 模拟 的 函数 如 下 : 






































def SimulateResults(daily, iters=101): 
model, results = RunLinearModel(daily) 
fake = daily.copy() 


result_seq = [] 

for i in range(iters): 
fake.ppg = results.fittedvalues + Resample(results.resid) 
_, fake_results = RunLinearModel(fake) 
result_seq.append(fake_results) 


return result_seq 
daily 是 包含 观测 价格 的 DataFrame，iters 是 模拟 的 次 数 。 
SimulateResults 使 用 了 12.3 节 中 介绍 的 RunLinearModeL， 估 计 观 测 值 的 斜率 和 截 距 。 


在 每 次 循环 中 ， 代 码 对 残 差 进行 重 抽样 ， 将 其 附加 在 拟 合 值 上 ， 生 成 一 个 “ 伪 ” 数 据 集 ， 
然后 对 伪 数据 拟 合 一 个 线性 模型 ， 将 结果 存储 在 RegressionResults 对 象 中 。 





























下 一 步 是 使 用 模拟 结果 生成 预测 : 


def Generatepredictions(result_ seq, years, add_resid=False): 
n = len(years) 
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d = dict(Intercept=np.ones(n), years=years, years2=years**2) 
predict df = pandas.DataFrame(d) 


predict seq = [] 
for fake_results in result_seq: 
predict = fake_results.predict(predict_df) 
if add_resid: 
predict += thinkstats2.Resample(fake_results.resid, n) 
predict_seq.append(predict) 


return predict_seq 


GeneratePredictions 的 参数 result_seq 是 上 一 步 生 成 的 结果 序列 ， 参 数 years 是 一 个 浮 
点 数 序列 ， 指 定 待 生 成 预测 的 时 间 区 间 ， 参 数 add_resid 说 明 是 否 应 该 将 重 取样 的 残 差 附 
加 到 直线 预测 结果 上 。GeneratePredictions 遍历 RegressionResults 序列 ， 并 生成 一 个 预 
测序 列 。 























最 后 一 步 是 绘制 预测 结果 的 90% 置信 区 间 。 


def Plotpredictions(daily, years, iters=101, percent=90): 
result_seq = SimulateResults(daily, iters=iters) 
p = (100 - percent) / 2 
percents = p, 100-p 


predict seq = Generatepredictions(result seq, years, True) 
low, high = thinkstats2.PercentileRows(predict_ seq, percents) 
thinkplot.FillBetween(years, low, high, alpha=0.3, color='gray') 


predict_ seq = Generatepredictions(result_ seq, years, False) 
low, high = thinkstats2.PercentileRows(predict seq, percents) 
thinkplot.FillBetween(years, low, high, alpha=0.5, color='gray') 


PlotPredictions 两 次 调用 GeneratePredictions 方法 ， 一 次 使 用 参数 add_resid=True， 另 
一 次 使 用 add_resid=False。 代 码 使 用 PercentiLeRows， 选 择 每 一 年 的 第 5 和 第 95 百 分 位 
秩 ， 在 其 间 绘 制 一 个 灰色 区 域 。 

















图 12-6 展示 了 代码 运行 的 结果 。 图 中 深 灰 色 区 域 代表 取样 误差 的 90% 置信 区 间 ， 即 由 取 
样 导 致 的 估计 斜率 和 截 距 不 确定 性 。 
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图 12-6: 基于 线性 拟 合 的 预测 ， 展 示 了 由 抽样 误差 和 预测 误差 导致 的 变异 
图 中 浅 灰 色 区 域 展 示 了 预测 误差 的 90% 置信 区 间 ， 预 测 误差 是 取样 误差 和 随机 变异 的 和 。 














这 些 区 域 对 取样 误差 和 随机 变异 进行 了 量化 ， 但 并 不 包括 建 模 误差 。 建 模 误差 通常 很 难 量 
化 ， 但 在 我 们 的 示例 中 ， 至 少 有 一 个 误差 来 源 可 以 处 理 ， 即 无 法 预测 的 外 部 事件 。 











回归 模型 基于 的 假设 是 ， 系 统 是 平稳 的 (stationary) ， 即 模型 参数 不 会 随 着 时 间 发 生变 化 。 
具体 来 说 ， 回 归 模 型 假设 模型 的 斜率 和 截 距 是 常数 ， 残 差分 布 也 不 变 。 

但 是 在 图 12-3 的 移动 平均 值 图 中 ， 斜 率 在 观测 区 间 中 似乎 至 少 变化 了 一 次 ， 而 且 前 半 部 分 
的 残 差 方 差 似乎 也 比 后 半 部 分 大 。 


因此 ， 我 们 得 到 的 参数 依赖 观测 区 间 。 为 了 检验 这 一 现象 对 预测 结果 的 影响 ， 我 们 可 以 对 
simulateResults 进行 扩展 ， 使 用 具有 不 同 开始 和 结束 日 期 的 观测 区 间 进 行 拟 合 ， 具 体 实现 


请 参见 timeseries.py。 























图 12-7 展示 了 中 等 质量 分 类 的 预测 结果 。 图 中 最 浅 的 灰色 区 域 代表 各 种 误差 的 置信 区 间 ， 
包括 取样 误差 、 随 机 变异 和 观测 区 间 变 化 。 
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图 12-7: 基于 线性 拟 合 的 预测 ， 展 示 了 由 观测 间隔 导致 的 变异 


基于 整个 区 间 的 模型 的 斜率 为 正 数 ， 说 明 价格 在 上 涨 。 而 最 近 的 区 间 显示 出 价格 有 下 跌 迹 
象 ， 因 此 基于 最 近 数 据 的 模型 斜率 为 负数 。 因 此 ， 最 宽 的 预测 间隔 包含 了 下 一 年 价格 下 跌 
的 可 能 性 。 


12.9 参考 书目 


时 间 序 列 分 析 是 一 个 很 大 的 课题 ， 这 一 章 只 触及 皮毛 而 已 。 进 行 时 间 序 列 数据 处 理 的 一 
个 重要 工具 是 自 回归 。 本 章 没 有 介绍 自 回 归 ， 主 要 是 因为 这 个 工具 不 适合 我 们 所 用 的 示 
例 数据 。 

但 是 ， 学 完 本 章 之 后 ， 你 完全 可 以 自己 学 习 自 回归 。 我 推荐 Philipp Janert 的 Data Analysis 
with Open Source Tools，O’”Reilly Media，2011。 这 本 书 中 关于 时 间 序 列 分 析 的 章节 很 好 地 
补充 了 本 章 的 内 容 。 


12.10 ”练习 


本 章 练 习 的 参考 答案 位 于 chap12soln.py 中 。 












































。 练习 12.1 
本 章 使 用 了 线性 模型 ， 因 其 是 线性 的 ， 所 以 具有 明显 的 缺点 。 我 们 没有 理由 预期 价格 随时 
间 线 性 变化 。 我 们 可 以 使 用 11.3 节 中 的 方法 ,添加 一 个 二 次 函数 ， 从 而 增加 模型 的 灵活 性 。 
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请 使 用 一 个 二 次 模型 ， 对 每 日 价格 时 间 序 列 进行 拟 合 ， 并 使 用 该 模型 生成 预测 结果 。 你 需 
要 编写 一 个 新 版 本 的 RunLinearModel 函数 ， 运 行 这 个 二 次 模型 ， 然 后 即 可 重用 timeseries. 
py 中 的 代码 生成 预测 结果 。 


。 练习 12.2 

请 编写 一 个 名 为 SerialCorrelationTest 的 类 ， 该 类 继承 9.2 市 中 的 HypothesisTest。 这 个 
类 应 当 使 用 一 个 Series 和 一 个 请 后 值 ， 用 指定 的 请 后 值 计算 该 Series 的 序列 相关 ， 然 后 计 
算 观 测 相 关 的 p 值 。 


请 使 用 这 个 类 检验 原始 价格 数据 中 的 序列 相关 是 否 为 统计 显著 的 ， 并 检验 线性 模型 的 残 差 
以 及 (前 一 个 练习 生成 的 ) 二 次 模型 的 残 差 。 





。 练习 12.3 
有 几 种 方法 可 以 扩展 EWMA 模型 生成 预测 结果 ， 最 简单 的 一 种 为 : 





(1) 计算 时 间 序 列 的 EWMA， 取 最 后 一 点 为 截 距 inter，; 
(2) 计算 时 间 序 列 中 相 邻 元 素 差 值 的 EWMA ， 取 最 后 一 点 为 斜率 slope; 
(3) 计 算 inter + stope * dt 预测 未 来 值 ， 其 中 dt 为 预测 时 间 与 最 后 一 个 观测 时 间 的 差 值 。 


请 使 用 这 种 方法 ， 生 成 最 后 一 个 观测 后 一 年 的 预测 值 。 提 示 如 下 : 

。 运行 分 析 之 前 ， 使 用 timeseries.FillMissing 填充 缺失 值 ， 这 样 可 使 相 邻 元 素 间 的 时 间 
差 一 致 ; 

。 使 用 Series.diff 计算 相 邻 元 素 的 差 值 ; 


。 使 用 reindex 将 DataFrame 的 索引 扩展 到 未 来 时 间 ; 
。 使 用 fiLtna 将 预测 值 写 入 DataFrame 中 。 


12.11 术语 


。 时 间 序 列 (time series) 
一 个 数据 集 ， 其 中 每 个 值 都 与 一 个 时 间 戳 相关， 通常 为 一 系列 测量 值 及 其 收集 时 间 。 















































。 窗口 (window) 


时 间 序 列 中 的 一 列 连续 值 ， 经 常用 于 计算 移动 平均 值 。 


。 移动 平均 值 (moving average) 
用 于 估计 时 间 序 列 的 次 在 趋势 的 统计 量 之 一 ， 通 过 计算 一 些 列 重 受 窗口 的 〈 某 种 ) 平均 
值得 到 。 





。 滚动 均值 (rolling mean) 
于 每 个 窗口 均值 的 一 种 移动 平均 值 。 





有 淋 汤 
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。 指数 加 权 移 动 平均 (exponentially-weighted moving avearage，EWMA) 
一 种 基于 加 权 均 值 的 移动 平均 值 ， 最 近 的 值 具有 最 高 的 权重 ， 早 期 值 的 权重 按 指数 级 
降低 。 








I 








。 span: 


EWMA 的 一 个 参数 ， 用 于 控制 权重 降低 的 速度 。 





。 序列 相关 (serial correlation ) 
一 个 时 间 序 列 和 它 自 身 的 一 个 移动 或 请 后 版 本 间 的 相关 。 


。 滞后 (lag) 
序列 相关 或 自 相 关中 数据 移动 的 大 小 。 





。 自 相 关 (autocorrelation) 
一 个 更 为 通用 的 术语 ， 描 述 使 用 任意 涡 后 








宣 


的 序列 相关 。 














。 自 相 关 函 数 (autocorrelation function ) 
将 请 后 值 映 射 到 序列 相关 的 国 数 。 


。 平稳 (stationary) 
如 果 一 个 模型 的 参数 和 残 差分 布 不 随时 间 变 化 ， 那 么 这 个 模型 就 是 平稳 的 。 
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第 13 章 


生存 分 析 





生存 分 析 (survival analysis) 是 一 种 描述 事物 持续 时 间 的 方式 。 生 存 分 析 常 用 于 研究 人 类 
寿命 ， 但 也 适用 于 研究 机 械 和 电子 元 件 的 “生存 期 ”， 或 更 为 通用 地 研究 一 个 事件 将 要 发 
生 的 时 间 。 

















如 果 你 认识 患 有 某 种 绝症 的 人 ， 那 么 可 能 知道 什么 是 “5 年 生存 率 ”"， 即 病 患 从 确诊 开始 5 
年 后 的 存活 概率 。 这 个 估计 值 和 相关 的 统计 量 是 生存 分 析 的 结果 。 


本 章 代 码 位 于 survival.py 中 。 前 言 介绍 了 如 何 下 载 和 使 用 本 书 代码 。 


13.1 生存 曲线 


生存 曲线 (survival curve) SQ) 是 生存 分 析 中 的 基本 概念 。SQ) 是 一 个 函数 ， 将 一 个 持续 时 
间 t 映 射 到 存活 时 间 超 过 1 的 概率 。 如 果 已 知 持续 时 间 (或 “生存 期 ") 的 分 布 ， 那 么 就 很 
容易 计算 出 生存 曲线 ， 即 CDF 的 补 函 数 。 

S(t)= 1— CDF(D 
其 中 CDFQ) 是 生存 期 小 于 或 等 于 1 的 概率 。 


例如 ， 在 全 国家 庭 增长 调查 数据 集中 有 11 189 个 完整 妊娠 持续 时 间 的 数据 。 我 们 可 以 读 取 
这 些 数 据 ， 计 算 CDF。 
preg = nsfg.ReadFempreg() 


complete = preg.query('outcome in [1, 3, 4]').prglngth 
cdf = thinkstats2.Cdf(complete, label='cdf') 
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妊娠 结果 代码 1、3 和 4 分 别 代表 成 功 生 产 、 死 胎 和 流产 。 这 个 分 析 排 除了 引产 、 富 外 孕 ， 
以 及 调查 进行 时 参与 者 妊娠 尚未 结束 的 情况 。 

DataFrame 的 query 方法 以 一 个 布尔 表达 式 为 参数 ， 为 每 一 行 数 据 计 算 这 个 表达 式 的 值 ， 
选择 结果 为 True 的 行 。 


13-1 (上 ) 展示 了 妊娠 持续 时 间 的 CDF 及 其 补 函 数 ， 即 生存 函数 。 为 了 表示 生存 函数 ， 
此 处 定义 了 一 个 对 象 ， 对 Cdf 进行 封装 ， 并 提供 适当 的 接口 。 





class SurvivalFunction(object): 
def _ init (self, cdf, label="''): 
self.cdf = cdf 
self.label = label or cdf.label 


@property 
def ts(self): 
return self.cdf.xs 


@property 
def ss(self): 
return 1 - self.cdf.ps 














“0 10 20 30 40 50 
时 间 ( 周 ) 











13-1: 妊娠 持续 时 间 的 Cdf 和 生存 函数 (上 ) 及 危险 函数 (下) 
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SurvivalFunction 有 两 个 属性 : ts 是 生存 期 序列 ，ss 是 生存 函数 。 在 Python 中 ,“ 属 性 ” 
是 一 种 可 以 像 变 量 一 样 被 调用 的 方法 。 


SurvivalFunction 可 以 通过 传人 生存 期 的 CDF 进行 初始 化 。 


sf = SurvivalFunction(cdf) 














SurvivalFunction 还 提供 _getitem ”和 Prob 方 法， 用 于 计算 生存 函数 。 





# class SurvivalFunction 


def _ getitem (self, t): 
return self.Prob(t) 


def Prob(self, t): 
return 1 - self.cdf.Prob(t) 


例如 ，sf[13] 是 妊娠 持续 时 间 超 过 3 个 月 的 比例 。 
>>> sf[13] 
0.86022 


>>> cdf[13] 
0.13978 


约 有 86% 的 妊娠 持续 时 间 超 过 3 个 月 ， 约 有 14% 未 超过 3 个 月 。 
SurvivalFunction 提供 了 Render 方法 ， 因 此 sf 可 以 用 thinkplot 中 的 国 数 绘制 。 
thinkpLot.PLot(sf) 


图 13-1 (上 ) 展示 了 绘制 结果 。 图 中 的 曲线 在 13~26 周 几 乎 是 平 的 ， 说 明 很 少 有 妊 垦 在 
第 三 到 第 六 个 月 期 间 终止 。 这 条 曲线 在 39 周 附近 最 为 陡峭 ，39 周正 是 最 常见 的 妊娠 持续 
时 间 。 


13.2 危险 函数 


从 生存 函数 可 以 推导 出 危险 函数 (hazard function)。 妊 娠 持续 时 间 的 危险 函数 从 时 间 t 映 
射 到 在 1 终止 的 妊娠 比例 。 上 其 体 公 式 如 下 : 























S(D— S(t+1) 


A(t) = SD 





公式 中 的 分 子 是 终止 于 1 的 生存 期 比例 ， 也 就 是 PMF(?)。 


SurvivalFunction 提供 MakeHazard 方法 ， 用 于 计算 危险 函数 。 
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# class SurvivalFunction 


def MakeHazard(self, label="''): 
ss = self.ss 
lams = {} 
for i, t in enumerate(self.ts[:-1]): 
hazard = (ss[i] - ss[i+1]) / ss[i] 
Lams[t] = hazard 


return HazardFunction(lams, label=label) 
HazardFunction 对 象 封装 了 一 个 pandas Series。 
class HazardFunction(object): 
def _ init (self, d, label="''): 


self.series = pandas.Series(d) 
self.label = label 











d 可 以 是 一 个 字典 对 象 或 其 他 任何 可 以 初始 化 Series 的 数据 类 型 ， 也 可 以 是 一 个 Series。 
label 是 一 个 字符 串 ， 在 绘制 图 形 时 标识 这 个 HazardFunction 对 象 。 


























HazardFunction 提供 _getitem__ 方法， 因此 可 以 使 用 如 下 代码 : 





>>> hf = sf.MakeHazard() 
>>> hf[39] 
0.49689 


如 此 可 见 ， 在 所 有 持续 时 间 达 到 或 超过 39 周 的 妊娠 中 ,， 约 有 50% 终止 于 第 39 周 。 


图 13-1 (下 ) 展示 了 妊娠 持续 时 间 的 危险 函数 。 在 超过 42 周 的 部 分 ， 和 危险 函数 只 基于 少 
量 的 数据 ， 因 此 很 不 规律 。 其 余部 分 的 曲线 形状 则 符合 预期 ， 曲 线 在 39 周 附近 最 高 ， 前 3 
个 月 比 中 间 3 个 月 的 值 略 高 。 
































危险 函数 不 仅 自 身 用 处 很 大 ， 而 且 还 是 估计 生存 曲线 的 重要 工具 ， 下 一 市 将 对 其 进行 
介绍 。 


13.3 估计 生存 曲线 


如 果 给 出 了 生存 期 的 CDF， 那 么 很 容易 计算 生存 国 数 和 危险 函数 。 但 是 ， 在 很 多 现实 世界 
场景 中 ， 我 们 无 法 直接 度量 生存 期 的 分 布 ， 必 须 进行 推断 。 


例如 ， 我 们 需要 跟踪 记录 一 群 病 患 在 确诊 后 的 生存 时 间 。 不 是 所 有 的 病 患 都 在 同一 天 确 
诊 ， 因 此 在 任何 时 间 点 ， 都 有 一 部 分 病 患 比 其 他 病 患 生存 时 间 更 长 。 如 果 一 些 病 患 去 世 ， 
那么 他 们 的 生存 时 间 就 是 确定 的 。 对 于 活着 的 病 患 ， 他 们 的 生存 时 间 未 知 ， 但 存在 一 个 
下 限 。 
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如 果 等 到 所 有 的 病 患 都 去 世 ， 那 我 们 就 可 以 计算 出 生存 曲线 ， 但 是 要 评估 一 项 新 疗法 的 效 
果 可 不 能 等 那么 久 ! 我 们 需要 找到 一 种 方法 ， 使 用 不 完整 的 信息 估计 生存 曲线 。 


举 个 令 人 高 兴 一 点 的 例子 : 我 要 使 用 全 国家 庭 增长 调查 数据 ， 计 算 调 查 参与 者 第 一 次 结婚 
的 年 龄 。 全 国家 庭 增长 调查 的 参与 者 年 龄 范围 是 14~44 岁 ， 因 此 这 个 数据 集 提供 了 处 于 不 
同 生 命 阶段 女性 的 一 个 快照 。 


对 于 已 婚 女性 ， 全 国家 庭 增长 调查 数据 集 包 含 了 她 们 的 初 婚 日 期 以 及 初 婚 年 龄 。 对 于 未 
婚 女性 ， 我 们 可 以 得 到 她 们 参与 调查 时 的 年 龄 ， 但 无 法 得 知 她 们 会 不 会 结婚 ， 什 么 时 候 
结婚 。 


既然 已 知 一 些 女性 的 初 婚 年 龄 ， 那 么 我 们 可 能 试图 排除 未 婚 女性 的 数据 ， 只 计算 已 知 数据 
的 CDF。 这 个 想法 很 糟糕 。 这 人 么 做 会 产生 双重 误导 的 结果 : (1) 年 龄 较 大 的 女性 在 调查 时 
已 婚 的 可 能 性 更 大 ， 因 此 所 占 比 例 偏 大 ，(2) 已 婚 女性 所 占 比例 也 偏 大 ! 实际 上 ， 这 样 分 
析 得 到 的 结论 会 是 所 有 女性 都 已 婚 ， 而 这 显然 是 不 正确 的 。 















































13.4 Kaplan-Meier 估 计 


在 计算 初 婚 年 龄 时 ， 将 未 婚 女性 包括 在 内 不 仅 是 可 取 的 ， 而 且 是 必要 的 。 这 就 要 用 到 生存 
分 析 中 的 一 个 主要 算法 : Kaplan-Meier 估计 (Kaplan-Meier estimation ) 。 


Kaplan-Meier 估计 的 大 致 思路 是 使 用 数据 估计 和 危险 函数 ， 然 后 将 危险 函数 转换 为 生存 函数 。 
要 估计 初 婚 年 龄 的 危险 函数 ， 我 们 需要 对 每 个 年 龄 计算 : (1) 在 这 个 年 龄 结婚 的 女性 人 数 ， 
(2)“ 有 人 危险 的 ”女性 人 数 ， 其 中 包括 在 这 个 年 龄 之 前 未 婚 的 所 有 女性 。 


具体 代码 如 下 : 























def EstimateHazardFunction(complete, ongoing, label="''): 


n = len(complete) 
hist_complete = thinkstats2.Hist(complete) 
sf_complete = SurvivalFunction(thinkstats2.Cdf(complete)) 


m = len(ongoing) 
sf_ongoing = SurvivalFunction(thinkstats2.Cdf(ongoing)) 


Lams = {} 

for t, ended in sorted(hist_complete.Items()): 
at_risk = ended + Nn * sf_complete[t] + m * sf_ongoing[t] 
Lams[t] = ended / at_risk 


return HazardFunction(lams, label=label) 


complete 是 完成 观测 集 ， 即 调查 参与 者 结婚 的 年 龄 。ongoing 是 未 完成 观测 集 ， 即 未 婚 女 
性 在 参与 调查 时 的 年 龄 。 
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首先 ， 代 码 计算 女性 结婚 年 龄 的 直方 图 hist_complete， 已 婚 女 性 的 生存 函数 sf_complete 
以 及 未 婚 女性 的 生存 函数 sf_ongoing。 


代码 中 的 循环 遍历 参与 者 结婚 的 年 龄 ， 每 个 年 龄 t 可 以 对 应 到 在 这 个 年 龄 结婚 的 女性 人 数 
ended， 然 后 计算 “有 人 危险 ”的 女性 人 数 ， 其 值 为 以 下 值 之 和 : 


。 ended， 即 在 年 龄 t 结婚 的 参与 者 人 数 ， 

。 n * sf_compLete[t]， 即 在 年 龄 t 之 后 结婚 的 参与 者 人 数 ; 

。 m * sf_ongoing[t]， 即 在 参与 调查 时 年 龄 超过 t 的 未 婚 人 数 ， 也 就 是 没有 在 年 龄 上 或 之 
前 结婚 的 人 数 。 


危险 函数 在 t 的 估计 值 为 ended 除 以 at_risk 所 得 的 比率 。 


























Lans 是 一 个 字典 ， 将 上 映射 到 4(D。 代 码 返 回 的 结果 为 一 个 HazardFunction 对 象 。 


13.5 ”婚姻 曲线 


要 测试 这 个 函数 ， 首 先 需要 进行 数据 清洗 和 转换 。 所 需 的 全 国家 庭 增 长 调查 变量 如 下 。 





。 cmbirth 


参与 者 的 出 生日 期 ， 所 有 参与 者 都 有 这 项 数据 。 





。 cimtvw 


参与 者 的 受 访 日 期 ， 所 有 参与 者 都 有 这 项 数据 。 


。 cmmarrhx 


参与 者 的 初 婚 日 期 ， 如 果 适 用 而 且 已 知 。 





。 evrmarry 


如 有 果 参 与 者 在 受 访 时 已 婚 则 为 1， 否则 为 0。 





前 3 个 变量 的 编码 格式 为 “世纪 一 月 ”"， 即 距 1899 年 12 月 的 月 数 整数 值 。 因 此 ， 世 纪 一 
月 值 1 就 是 1900 年 1 月 。 


首先 ， 读 取 调 查 参 与 者 文件 ， 替 换 cmmarrhx 中 的 无 效 值 。 














resp = chap91soLn.ReadFemResp() 
resp.cmmarrhx.replace([9997, 9998, 9999], np.nan, inplace=True) 


然后 计算 每 位 参与 者 结婚 时 的 年 龄 以 及 受 访 时 的 年 龄 。 


resp['agemarry'] = (resp.cmmarrhx - resp.cmbirth) / 12.0 
resp['age'] = (resp.cmintvw - resp.cmbirth) / 12.0 
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接 下 来 ， 抽 取 complete 数据 ， 即 已 婚 女性 的 结婚 年 龄 ， 以 及 ongoing， 即 未 婚 女 性 的 受 访 
年 龄 。 


complete = resp[resp.evrmarry==1].agemarry 
ongoing = resp[resp.evrmarry==0].age 


最 后 计算 危险 函数 。 


hf = EstimateHazardFunction(complete, ongoing) 























图 13-2 (上 ) 展示 了 计算 得 到 的 估计 危险 函数 。 危 险 函 数值 在 青少年 时 期 很 低 ，20 多 岁 
时 较 高 ， 在 30 多 岁 时 呈 下 降 趋 势 。 危 险 函 数 在 40 多 岁 时 再 次 上 升 ， 但 这 是 估计 过 程 造成 
的 结果 。 随 着 “有 人 危险 ”的 参与 者 人 数 下 降 ， 很 少 的 结婚 女性 人 数 会 产生 很 大 的 估计 和 危险 
值 。 生 存 国 数 将 会 对 这 种 噪音 进行 平 请 处 理 。 
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图 13-2: 初 婚 年 龄 的 危险 函数 (上 ) 和 生存 函数 (下) 


13.6 ”估计 生存 函数 


得 到 危险 函数 之 后 ， 我 们 就 可 以 估计 生存 函数 了 。 超 过 时 间 t 仍然 生存 的 概率 是 在 t 之 前 
的 所 有 时 间 都 生存 并 且 在 t 也 生存 的 概率 ， 即 危险 补 函 数 的 累积 乘积 : 
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[1-4(O)][1-4(1)]*…*[1-4(D] 
HazardFunction 类 提供 MakeSurvival 方法 ， 计 算 这 个 乘积 。 


# class HazardFunction: 


def MakeSurvival(self): 
ts = self.series.index 
ss = (1 - self.series).cumprod() 
cdf = thinkstats2.Cdf(ts, 1-ss) 
sf = SurvivalFunction(cdf) 
return sf 


ts 是 估计 和 危险 函数 的 时 间 序 列 ，ss 是 危险 补 函数 的 累积 乘积 ， 也 就 是 生存 函数 。 


受 限 于 SurvivalFunction 的 实现 方式 ， 我 们 必须 计算 ss 的 补 ， 生 成 一 个 Cdf， 然 后 才能 实 
例 化 SurvivalFunction 对 象 。 


图 13-2 (下 ) 展示 了 计算 结果 。 生 存 曲线 在 25~35 岁 最 为 陡峭 ， 这 正 是 大 部 分 女性 的 结婚 
年 龄 。 在 35~45 岁 ， 曲 线 几 乎 是 平 直 的 ,说明 35 岁 前 没有 结婚 的 女性 很 可 能 不 会 结婚 。 


1986 发 表 的 一 篇 杂志 文章 就 是 基于 这 样 的 生存 曲线 。《 新 闻 周 刊 》(Newsweek) 报道 称 ， 对 
于 一 位 40 岁 的 未 婚 女 性 ， 其 结婚 的 可 能 性 比 “ 被 翁 怖 分 子 杀 害 ” 的 可 能 性 还 小 。 这 些 统 
计数 据 得 到 广泛 报道 ， 成 为 流行 文化 的 一 部 分 ， 但 那 时 的 数据 是 错误 的 ( 因 其 基于 错误 的 
分 析 )， 而 且 与 今天 的 现实 相去 更 远 (由 于 从 那 时 开始 并 持续 至 今 的 文化 变迁 )。2006 年 ， 
《新 闻 周 刊 》 发 表 了 另 一 篇 文章 ， 承 认 了 自己 的 错误 。 
































我 建议 你 了 解 一 下 这 篇 文章 的 相关 背景 ， 其 所 基于 的 统计 数据 以 及 产生 的 反响 。 我 们 应 当 
引 以 为 戒 ， 提 醒 自己 遵循 道德 规范 ， 谨 慎 执 行 统计 分 析 ， 在 解释 分 析 结 果 时 持 有 适当 的 怀 
疑 态度 ， 并 将 结果 准确 诚实 地 呈现 给 公众 。 


13.7 置信 区 间 


Kaplan-Meier 分 析 生 成 生存 曲线 的 一 个 估计 ， 但 量化 这 个 估计 的 不 确定 性 也 很 重要 。 此 处 
的 误差 来 源 同样 有 3 种 : 测量 误差 、 抽 样 误差 和 建 模 误差 。 
在 初 婚 年 龄 分 析 中 ， 调 量 误 差 可 能 很 小 。 人 们 通常 都 知道 自己 何 时 出 生 、 是 否 已 婚 ， 以 及 
结婚 时 间 ， 而 且 应 该 会 准确 提供 这 些 信息 。 





























我 们 可 以 使 用 重 抽样 来 量化 抽样 误差 。 代 码 如 下 : 








def ResampleSurvival(resp, iters=101): 
low, high = resp.agemarry.min(), resp.agemarry.max() 
ts = np.arange(low, high, 1/12.0) 
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ss_seq = [] 

for i in range(iters): 
sample = thinkstats2.ResampleRowsWeighted(resp) 
hf, sf = EstimateSurvival(sample) 
ss_seq.append(sf.Probs(ts)) 


low, high = thinkstats2.PercentileRows(ss_seq, [5, 95]) 
thinkplot.FillBetween(ts, low, high) 


ResampleSurvival 的 参数 resp 是 包含 参与 者 信息 的 DataFrame，iters 是 重 抽 样 的 次 数 。 
代码 计算 出 年 龄 序列 ts， 用 于 估算 生存 函数 。 


在 循环 代码 内 ，ResampleSurvival 进行 如 下 操作 : 





。 使 用 ResampleRowsWeighted 对 参与 者 重 抽样 ，10.7 节 介 绍 过 ResampleRowsWeighted， 
。 调用 EstimateSurvival， 这 一 函数 使 用 之 前 章节 介绍 的 过 程 估算 危险 曲线 和 生存 曲线 ， 
。 上 述 函 数 还 能 计算 ts 中 每 个 年 龄 的 生存 曲线 。 


ss_seq 是 估算 得 到 的 生存 曲线 序列 。PercentileRows 使 用 这 一 序列 ， 计 算 第 5 和 第 95 百 
分 位 秩 ， 返 回 生 存 曲 线 的 90% 置信 区 间 。 




















图 13-3 展示 了 Resamplesurvival 的 运行 结果 ， 以 及 前 一 节 中 估算 的 生存 国 数 。 与 估计 曲 
线 不 同 ， 这 一 结果 中 的 置信 区 间 考 虑 了 取样 权重 。 两 条 曲线 的 区 别 表明 取样 权重 对 估计 有 
显著 的 影响 一 一 这 一 点 需要 牢记 。 











未 婚 概 率 











0.0 -上 1 1 L 上 1 -一 














图 13-3: 初 婚 年 龄 的 生存 函数 以 及 基于 加 权重 抽样 的 90% 置信 区 间 
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13.8 群 组 效应 


生存 分 析 的 一 个 挑战 是 ， 估 计 曲 线 的 不 同 部 分 基于 不 同 的 调查 参与 者 群 组 。 曲 线 在 时 间 t 
的 部 分 基于 的 参与 者 在 受 访 时 年 龄 不 小 于 t。 因 此 ， 曲 线 最 左 侧 的 部 分 包含 了 所 有 参与 者 
的 数据 ， 而 最 右 侧 只 包含 了 年 龄 最 大 的 那 部 分 参与 者 。 


如 果 调 查 参 与 者 的 相关 特征 不 随时 间 变 化 ， 那 就 没有 问题 。 但 是 在 初 婚 年 龄 这 一 问题 
上 ， 出 生 于 不 同时 代 的 女性 似乎 具有 不 同 的 婚姻 模式 。 我 们 可 以 将 调查 参与 者 按照 出 生 
的 年 代 进行 分 组 ， 来 研究 这 一 效应 。 像 这 样 由 出 生日 期 或 类 似 事件 定义 的 组 ， 称 为 群 组 
(cohort)， 各 组 之 间 的 差异 则 称 为 群 组 效应 (cohort effect)。 
为 了 研究 全 国家 庭 增长 调查 婚姻 数据 中 的 群 组 效应 ， 我 收集 了 本 书 中 多 处 使 用 的 来 自 2002 
年 的 第 6 周期 数据 ，9.11 节 使 用 数据 来 自 2006~2010 的 第 7 周期 ， 以 及 1995 年 第 5 周期 。 
这 些 数据 集 一 共 包 含 30 769 位 调查 参与 者 。 



































resp5 = ReadFemResp1995() 
resp6 = ReadFemResp2002() 
resp7 = ReadFemResp2010() 
resps = [resp5, resp6, resp7] 


对 resp 中 的 每 个 DataFrame， 使 用 cmbirth 计算 每 位 参与 者 的 出 生年 代 。 


month0 = pandas.to_datetime('1899-12-15') 
dates = [month0 + pandas.DateOffset(months=cm) 
for cm in resp.cmbirth] 
resp['decade'] = (pandas.DatetimeIndex(dates).year - 1900) // 10 





编码 变量 cmbirth 的 值 是 距离 1899 年 12 月 的 月 数 整数 值 。monthe 将 这 个 起 始 日 期 表示 
为 Timestamp 对 象 。 对 每 个 出 生日 期 ， 代 码 初 始 化 一 个 包含 世纪 一 月 值 的 Dateoffset, 与 
month9 相 加 ， 得 到 一 个 Timestamp 序列 ， 将 其 转换 为 DateTimeIndex， 最 后 从 中 抽取 year 
值 ， 计 算 年 代 。 


为 了 考虑 取样 权重 ， 也 为 了 展示 由 取样 误差 导致 的 数据 变化 ， 要 对 数据 进行 重 抽 样 ， 将 参 
与 者 按 年 代 分 组 ， 并 绘制 生存 曲线 。 
































for i in range(iters): 
samples = [thinkstats2.ResampleRowsWeighted(resp) 
for resp in resps] 
sample = pandas.concat(samples, ignore_index=True) 
groups = sample.groupby('decade') 


EstimateSurvivalByDecade(groups, alpha=0.2) 





来 自 全 国家 庭 增 长 调查 的 3 个 周期 数据 使 用 了 不 同 的 取样 权重 ， 因 此 我 对 每 组 数据 分 别 进 
行 重 抽样 ， 然 后 用 concat 将 其 合并 成 一 个 DataFrame。 参 数 ignore_index 告诉 concat 方 
法 不 要 按 索 引 匹 配 参与 者 ， 而 是 创建 一 个 从 0 到 30 768 的 新 索引 。 
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EstimateSurvivalByDecade 绘制 每 个 群 组 的 生存 曲线 。 











def EstimateSurvivalByDecade(resp): 
for name, group in groups: 
hf, sf = EstimateSurvival(group) 
thinkplot.Plot(sf) 


图 13-4 展示 了 绘制 结果 ， 从 中 可 见 几 个 模式 。 





。 生 于 20 世纪 50 年代 的 女性 结婚 最 早 ， 随 后 的 群 组 结婚 时 间 越 来 越 晚 ， 至 少 到 30 岁 左 
右 都 是 如 此 。 

。 生 于 20 世纪 60 年 代 的 女性 的 婚姻 模式 令 人 惊讶 。 在 25 岁 之 前 ， 她 们 比 上 一 代 人 结婚 
率 低 。 而 在 25 岁 之 后 ， 她 们 的 结婚 率 上 升 较 快 ， 到 32 岁 时 已 经 超过 了 50 年 代 的 群 组 。 
她 们 在 44 岁 时 结婚 的 可 能 性 比 别 的 群 组 大 得 多 。 

















生 于 20 世纪 60 年 代 的 女性 ， 在 1985~1995 年 间 年 龄 达到 25 岁 。 回 想起 前 面 提 到 的 
1986 年 出 版 的 《新 闻 周 刊 》 文 章 ， 我 们 可 能 会 认为 这 篇 文章 引发 了 一 场 结婚 潮 。 这 个 解 
释 未 免 有 点 取 巧 ， 但 这 篇 文章 及 其 社会 反响 的 确 可 能 反映 了 影响 这 一 群 组 行为 的 情绪 。 


。 20 世纪 70 年 代 群 组 的 模式 类 似 60 年 代 。 在 25 岁 之 前 ， 她 们 比 上 一 代 人 结婚 率 低 ， 而 
到 35 岁 则 超过 了 前 两 个 群 组 。 

。 生 于 20 世纪 80 年 代 的 女性 在 25 岁 之 前 结婚 的 人 更 少 。80 年 代 之 后 的 情况 就 不 清楚 了 ， 
要 获得 更 多 数据 ， 我 们 得 等 到 全 国家 庭 增长 调查 的 下 一 个 周期 。 








1.0 








-一 9 世纪 6 年 代 
一 0 世纪 6 年 代 
9 世纪 0 年 代 | | 
9 世纪 8 年 代 
9 世纪 9 年 代 
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13-4: 出 生 于 不 同年 代 的 调查 参与 者 的 生存 函数 
与 此 同时 ， 我 们 还 可 以 进行 一 些 预 测 。 


15 20 
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13.9 ”外 推 


70 年 代 群 组 的 生存 曲线 止 于 38 岁 左右 ，80 年 代 群 组 则 止 于 28 岁 ， 而 90 年 代 群 组 几乎 就 
没有 什么 数据 。 


我 们 可 以 从 前 一 个 群 组 “ 借 ” 些 数据 ， 对 这 些 曲线 进行 外 推 。HazardFunction 提供 一 个 
Extend 方法 ， 可 以 从 另 一 个 较 长 的 HazardFunction 中 复制 尾部 数据 。 


# class HazardFunction 


def Extend(self, other): 
Last = self.series.index[-1] 
more = other.series[other.series.index > last] 
self.series = pandas.concat([self.series, more]) 


13.2 节 介 绍 过 ，HazardFunction 包含 一 个 将 1 映射 到 4(?) 的 Series。Extend 方法 找到 self. 
series 中 的 最 后 一 个 索引 值 Last， 选 择 other 中 位 于 last 之 后 的 值 ， 并 将 这 些 值 附加 在 


seLf .series 上 。 

















现在 我 们 可 以 使 用 前 一 个 年 代 群 组 的 数据 来 扩展 每 个 群 组 的 HazardFunction 。 





def PLotpPredictionsByDecade(groups ) : 
hfs = [] 
for name, group in groups: 
hf, sf = EstimateSurvival(group) 
hfs.append(hf) 


thinkpLot.PrePLot(Len(hfs)) 
for i, hf in enumerate(hfs ) : 
if i > 0: 
hf.Extend(hfs[i-1]) 
sf = hf.MakeSurvival() 
thinkplot.Plot(sf) 








groups 是 一 个 GroupBy 对 象 ， 其 中 的 参与 者 按 出 生年 代 进行 了 分 组 。 第 一 个 循环 计算 了 每 
个 组 的 HazardFunction。 





第 二 个 循环 使 用 前 一 组 的 数据 对 每 个 组 的 HazardFunction 进行 扩展 ， 而 前 一 组 的 数据 可 
能 包含 来 自 更 前 一 组 的 数据 ， 依 此 类 推 。 然 后 代码 将 每 个 HazardFunction 转换 为 一 个 
SurvivalFunction， 并 绘制 其 图 形 。 














图 13-5 展示 了 代码 运行 的 结果 。 图 中 去 除了 50 年 代 的 群 组 ， 使 预测 更 清晰 可 见 。 这 些 结 
果 表 明 ， 到 40 岁 时 ， 最 近 的 群 组 会 与 60 年 代 群 组 重合 ， 只 剩 不 到 20% 的 人 还 未 结婚 。 
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13-5: 生 于 不 同年 代 的 参与 者 的 生存 曲线 ， 较 晚 的 群 组 带 有 预测 值 


13.10 ”预期 剩余 生存 期 


给 定 一 个 生存 曲线 ， 我 们 可 以 计算 出 以 当前 年 龄 为 参数 的 预期 剩余 生存 期 函数 。 例 如 ， 给 
定 13.1 节 中 的 妊娠 持续 时 间 的 生存 函数 ， 我 们 可 以 计算 出 距离 观 儿 出 生 的 预期 时 间 。 


第 一 步 是 得 到 生存 期 的 PMF。SurvivalFunction 为 此 提供 了 一 个 方法 。 


























# class SurvivalFunction 


def Makepmf(self, filler=None): 
pmf = thinkstats2.Pmf() 
for vaL，prob in self.cdf.Items(): 
pmf.Set(vaL，prob) 


Cutoff = seLf.cdf.ps[-1] 
if filler is not None: 
pmf[filler] = 1-cutoff 


return pmf 


请 记 住 ，SuvivalFunction 包含 生存 期 Cdf。 代 码 中 的 循环 将 Cdf 中 的 值 和 概率 复制 到 一 个 
Pmf 中 。 


cutoff 是 Cdf 中 最 大 的 概率 值 ， 如 果 Cdf 包含 全 部 数据 ， 则 此 值 为 1， 否 则 此 值 小 于 1。 
如 果 Cdf 的 数据 不 完整 ， 代 码 将 插入 一 个 给 定 的 值 filler， 从 而 补 全 数据 。 


妊娠 持续 时 间 的 Cdf 是 完整 的 ， 因 此 不 需要 考虑 这 个 细 方 。 
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下 一 步 是 计算 预期 剩余 生存 期 ， 其 中 的 “预期 ”是 平均 的 意思 。SurvivalFunction 也 为 此 


提供 了 一 个 方法 。 


# class SurvivalFunction 


def RemainingLifetime(self, filler=None, func=thinkstats2.Pmf.Mean): 


pmf = self.Makepmf(filler=filler) 


d= 
for t in sorted(pmf.VaLues())[:-1]: 
pmf[t] = 0 


pmf.Normalize() 
d[t] = func(pmf) - t 


return pandas.Series(d) 


RemainingLifetime 的 参数 filler 会 传递 给 MakePmf, 参数 func 是 用 于 总 结 剩余 生命 期 分 布 


的 函数 。 


pmf 是 从 SurvivalFunction 得 到 的 生存 期 Pmf。d 是 包含 计算 结果 的 字典 ， 即 从 当前 年 龄 t 


到 预期 剩余 生命 期 的 映射 。 





代码 中 的 循环 遍历 Pmf 中 的 值 。 对 每 个 值 ， 计 算 在 生命 期 超过 t 的 条 们 














分 布 。 有 具体 做 法 是 从 Pmf 中 一 次 移 除 一 个 值 ， 对 剩余 值 重新 进行 正 态 





的 条 件 下 ， 妊 娠 持续 时 间 的 均值 。 减 去 t 则 得 到 了 剩余 妊娠 持续 时 间 的 均值 。 

















F 下， 生命 期 的 条 件 


七 。 
随后 ， 代 码 使 用 func 总 结 得 到 的 条 件 概率 。 这 个 示例 中 的 结果 是 ， 在 妊娠 持续 时 间 超 过 t 














图 13-6 ( 左 ) 展示 了 以 当前 妊娠 持续 时 间 为 参数 的 预期 持续 妊娠 时 间 函 数 。 例 如 ， 在 第 0 









































周 ， 预 期 剩余 持续 时 间 约 为 34 周 。 这 个 值 比 足 月 妊娠 (39 周 ) 小 ， 因 为 前 3 个 月 中 的 终 
止 妊娠 将 均值 拉 低 了 。 
妊娠 时 间 _ 初 婚 年 具 
14 上 
30 
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图 13-6: 妊娠 持续 时 间 的 预期 剩余 生存 期 ( 左 ) 和 初 婚 剩 余年 数 ( 右 ) 
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图 中 的 曲线 在 前 3 个 月 缓慢 下 降 。 到 第 13 周 ， 预 期 剩余 生存 期 只 下 降 了 9 周 ， 达 到 了 25 








周 。 之 后 曲线 下 降 较 快 ， 每 过 1 周 约 下 降 1 周 。 





都 是 和 





在 第 37~42 周 ， 曲 线 走 平 ， 值 在 1~2 周 。 在 这 一 时 间 段 的 任何 时 刻 ， 预 期 剩余 生存 期 
目 同 的 ， 随 着 每 一 周 的 过 去 ， 目 标 却 没 有 更 近 。 具 有 这 种 属性 的 过 程 称 为 无 记忆 的 























(memoryless) ， 因 为 过 去 的 时 间 对 预测 不 产生 任何 影响 。 这 种 行为 就 是 产科 护士 们 恼人 的 





口头 襟 


图 13-6 ( 右 ) 展示 了 到 初 婚 年 龄 的 剩余 时 间 中 位 数 函 数 ， 参 数 为 年 龄 。 对 于 一 个 11 岁 的 
女孩 ， 到 初 婚 年 龄 的 中 位 数 时 间 约 为 14 年 。 这 条 曲线 持续 下 降 ， 到 22 岁 附 近 剩 余 时 间 中 
位 数 保持 在 7 年 左右 ， 之 后 开始 上 升 ， 到 30 岁 又 回 到 了 最 开始 的 剩余 时 间 : 14 年 。 


根据 这 一 数据 ， 年 轻 女 性 的 剩余 “生存 期 ” 呈 下 降 趋 势 。 具 有 这 一 属性 的 机 械 组 件 称 为 
NBUE， 即 “新 比 旧 好 ” (new better than used in expectation) ， 意 思 是 新 部 件 持续 时 间 更 长 。 
年 龄 超过 22 岁 的 女性 到 初 婚 的 剩余 时 间 呈 上 升 趋势 。 具 有 这 种 属性 的 组 件 称 为 UBNE， 
即 “ 旧 比 新 好 ” (used better than new in expectation) 。 也 就 是 说 ， 部 件 越 上 日 ， 预 期 持续 的 时 





和 








“随时 可 能 发 动 ”(any day now) 的 数学 基础 。 



































间 越 长 。 新 生 儿 和 癌症 病 患 也 属于 UBNE， 他 们 的 生存 时 间 越 长 ， 预 期 寿命 就 越 长 。 


对 于 初 婚 剩余 时 间 ， 我 计算 的 是 中 位 数 而 非 均值 ， 因 为 Cdf 不 是 完整 的 。 生 存 曲线 表明 ， 
约 有 20% 的 参与 者 不 会 在 44 岁 之 前 结婚 。 这 些 女 性 的 初 婚 年 龄 属于 未 知 ， 有 可 能 并 不 存 


在 ， 











大 











此 无 法 计算 均值 。 








我 处 理 这些 未 知 数据 的 方法 ， 是 将 其 替换 为 一 个 代表 无 穷 大 的 特殊 值 np.inf。 这 样 可 以 
使 所 有 年 龄 的 均值 为 无 穷 大 ， 而 只 要 超过 50% 的 剩余 生存 期 为 有 限 值 ， 中 位 数 就 是 有 意 
义 的 。30 岁 之 前 的 数据 都 满足 这 一 条 件 ， 而 之 后 就 很 难 定义 一 个 有 意义 的 预期 剩余 生存 
期 了 。 


计算 和 绘制 这 些 函 数 的 代码 如 下 : 





























rem lifel1 = sf1.RemainingLifetime() 
thinkplot.Plot(rem life1) 


func = lambda pmf: pmf.Percentile(50) 
rem_ life2 = sf2.RemainingLifetime(filler=np.inf, func=func) 
thinkplot.Plot(rem_life2) 


sf1 是 妊娠 持续 时 间 的 生存 函数 ， 我 们 可 以 使 用 默认 参数 调用 RemainingLifetime。 
sf2 是 初 婚 年 龄 的 生存 函数 ，func 函数 以 Pmf 为 参数 ， 计 算 其 中 位 数 (第 50 百 分 位 秩 )。 


13.11 练习 


本 章 练习 的 参考 答案 位 于 chap13soln.py 中 。 
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。 练习 13.1 

在 全 国家 庭 增长 调查 的 第 6 和 第 7 周期 中 ， 变 量 cmdivorcx 是 调查 参与 者 第 一 次 婚姻 的 离 
婚 日 期 (如 果 存 在 的 话 ) ， 编 码 为 世纪 一 月。 

请 计算 以 离婚 为 终止 的 婚姻 持续 时 间 ， 以 及 到 目前 为 止 仍然 延续 的 婚姻 的 持续 时 间 。 请 估 
计 婚 姻 持 续 时 间 的 危险 函数 和 生存 函数 。 
请 使 用 重 抽样 ， 处 理 取 样 权重 的 影响 ， 并 绘制 几 个 重 抽 样 的 结果 数据 ， 可 视 化 展示 取样 
误差 。 


请 思考 如 何 将 调查 参与 者 按 出 生年 代 进行 分 组 ， 以 及 如 何 按 初 婚 年 龄 进行 分 组 。 












































13.12 术语 


。 生存 分 析 (survival analysis) 
描述 和 预测 生存 期 (或 直到 某 事 件 发 生 的 时 间 ) 的 一 组 方法 。 


。 生存 曲线 (survival curve) 
一 个 函数 ， 将 时 间 t 映射 到 在 t 之 后 仍然 存活 的 概率 。 


。 危 险 孙 数 (hazard function) 
一 个 函数 ， 将 时 间 t 映射 到 在 t 之 前 存活 的 人 中 在 t 时 刻 死 亡 的 比例 。 





。 Kaplan-Meier 估计 (Kaplan-Meier estimation) 
估计 和 危险 函数 和 生存 函数 的 一 种 算法 。 


。 群 组 (cohort) 
在 特定 的 事件 间隔 内 ， 由 某 个 事件 (如 出 生日 期 ) 决定 的 一 组 对 象 。 











。 群 组 效应 (cohort effect) 
群 组 之 间 的 差异 。 


。 NBUE 
预期 剩余 生存 期 的 一 个 属性 , “新 比 旧 好 ” (New better than used in expectation ) 。 





。 UBNE 
预期 剩余 生存 期 的 一 个 属性 ,，“ 旧 比 新 好 ” (Used better than new in expectation ) 。 
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第 14 章 


分 析 方 法 





本 书 主要 讨论 的 是 计算 方法 ， 如 模拟 和 重 抽样 ， 但 书 中 解决 的 一 些 问 题 还 有 更 高 效 的 分 析 
方法 可 用 。 





本 章 将 介绍 一 些 分 析 方 法 ， 解 释 其 工作 原理 ， 末 尾 还 将 给 出 一 些 建议 ， 告 知 如 何 将 探索 性 
数据 分 析 的 计算 和 分 析 方 法 进行 结合 。 


本 书 代 码 位 于 normal.py 中 。 前 言 介绍 了 如 何 下 载 和 使 用 本 书 代码 。 


14.1 正 态 分 布 
让 我 们 回顾 一 下 8.3 节 的 问题 : 


假设 你 是 一 位 科学 家 ， 在 自然 保护 区 中 研究 大 猩猩 。 对 9 只 大 猩猩 称 重 得 到 的 样 

本 均值 X = 90kg， 样 本 标准 差 9 = 7.5kg。 如 果 使 用 X 估 计 总 体 均值 ， 那 么 这 一 估 

计 值 的 标准 误差 是 多 少 ? 
回答 这 个 问题 需要 计算 x 的 抽样 分 布 。 在 8.3 节 ， 我 们 通过 对 实验 ( 称 重 9 只 大 猩猩 ) 进 
行 模拟 ， 计 算 每 次 模拟 实验 的 x， 收 集 估计 值 的 分 布 ， 然 后 得 到 近似 的 分 布 。 
这 一 近似 过 程 的 结果 是 抽样 分 布 。 然 后 ， 我 们 使 用 这 个 抽样 分 布 ， 计 算出 标准 误差 和 置信 


区 间 。 


。 抽样 分 布 的 标准 差 是 估计 值 的 标准 误差 。 示 例 中 的 抽样 分 布 标准 差 约 为 2.5kg。 
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。 抽样 分 布 的 第 5 和 第 95 百 分 位 秩 的 间隔 为 90% 置信 区 间 。 如 果 多 次 运行 实验 ， 估 计 值 
有 90% 的 概率 位 于 这 个 间隔 内 。 示 例 中 的 90% 置信 区 间 为 (86, 94)kg。 





现在 我 们 要 用 统计 方法 进行 同样 的 计算 。 已 知 成 年 雌性 大 猩猩 的 体重 大 致 符合 正 态 分 布 ， 
因此 我 们 可 以 利用 这 一 条 件 。 正 态 分 布 有 两 个 特性 ， 使 其 特别 适合 于 分 析 : 正 态 分 布 在 线 
性 变换 和 加 法 下 是 “封闭 的 ”(closed)。 为 了 解释 这 人 句 话 的 意思 ， 我 们 需要 用 到 一 些 符号 。 


如 果 一 个 数值 X， 符 合 参数 为 4 和 的 正 态 分 布 ， 则 可 以 记 为 : 











X~ MN, 四 














其 中 符号 ~ 表示 “符合 分 布 ”， 草 体 字母 代表 “ 正 态 ”。 


七 的 一 个 线性 变换 形 为 X=ax+b， 其 中 收 和 为 具体 数字 。 如 果 马 与 陈 属 于 同一 个 分 布 
族 ， 那 么 这 个 分 布 族 就 是 封闭 的 。 正 态 分 布 具 有 这 一 属性 。 如 果 Nt,o)， 那 么 











~ Mautb, do (1) 


正 态 分 布 在 加 法 下 也 是 封闭 的 。 如 果 Z=X+7,， 并 且 X~N (px, ax)， 了 NO ， of)， 
那么 


NOCAT+TAy， ax 十 ay) (2) 
对 于 Z=X+X 的 特殊 情况 ， 有 


ZN 24, 20x) 
































通常 ， 如 果 从 式 中 抽取 壮 个 值 求 和 ， 结 果 将 有 : 


ZN (nuy, no%) (3) 


14.2 ”抽样 分 布 


万 事 俱 备 ， 我 们 现在 可 以 开始 计算 x 的 抽样 分 布 了 。 请 记 住 ，x 的 计算 方法 是 : 对 n 只 大 猩 
猩 称 重 ， 得 到 体重 总 和 ， 然 后 除 以 n。 


假设 大 猩猩 体重 XX 大 致 符合 正 态 分 布 : 








X~ MN, 四 
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如 果 测 量 n 只 大 猩猩 的 体重 ， 那 么 由 公式 (3) 可 知 ， 体 重 之 和 了 的 分 布 为 : 


Y~ Nnu, no’) 


将 公式 (1) 中 的 a 替换 为 1n， 即 得 到 了 除 以 n 所 得 的 样本 均值 Z 的 分 布 : 


Z~ Nu, om) 





Z 的 分 布 就 是 x 的 抽样 分 布 。Z 的 均值 为 4， 说 明 x 是 4 的 无 偏 估计 。 抽 样 分 布 的 方差 为 rn。 




















因此 ， 抽 样 分 布 的 标准 差 ， 即 估计 值 的 标准 误差 ,为 a。// n。 在 大 猩猩 体重 示例 中 ，o 为 
7.5kg, 7 为 9， 因此 标准 误差 为 2.5kg。 这 与 使 用 模拟 方法 得 到 结果 完全 一 致 ， 但 计算 过 程 








要 快 得 多 ! 

















我 们 也 可 以 使 用 抽样 分 布 计算 置信 区 间 。x 的 90% 置信 区 间 是 Z 的 第 5 和 第 95 百 分 位 秩 
的 间隔 。Z 符合 正 态 分 布 ， 因 此 可 以 通过 CDF 反 国 数 计算 出 百 分 位 秩 。 

正 态 分 布 的 CDF 或 其 反 函 数 没有 闭 式 解 ， 但 有 计算 速度 很 快 的 数值 方法 ， 这 些 方 法 位 于 
SciPy 软件 包 中 (参见 5.2 节 )。thinkstats2 提供 一 个 封装 函数 ， 使 SciPy 函数 更 易 使 用 。 

















def EvalNormalCdfInverse(p, mu=0, sigma=1): 


return scipy.stats.norm.ppf(p, loc=mu, scale=sigma) 


对 于 给 定 的 概率 p，EvaLNormaLCdfInverse 返回 参数 为 


mu 和 sigma 的 正 态 分 布 的 相应 百 分 


位 秩 。 要 得 到 x 的 90% 置信 区 间 ， 需 要 计算 第 5 和 第 95 百 分 位 秩 : 


>>> thinkstats2.EvalNormalCdfInverse(0.05, mu=90, sigma=2.5) 





85.888 


>>> thinkstats2.EvalNormalCdfInverse(0.95, mu=90, sigma=2.5) 


94.112 

















结果 表明 ， 如 果 多 次 运行 实验 ， 估 计 值 x 位 于 区 间 (85.9, 94.1) 内 的 概率 为 90%。 这 依然 与 


使 用 模拟 方法 得 到 的 结果 一 致 。 


14.3 ”表示 正 态 分 布 


为 了 使 这 些 计 算 更 加 容易 ， 我 定义 了 一 个 Normal 类 ， 月 
义 的 公式 进行 编码 。 具 体 定 义 如 下 : 


class NormaL(object ) : 


def _ init (self, mu, sigma2): 
seLf.mu = mu 








有 于 表示 正 态 分 布 ， 并 对 之 前 昔 市 定 
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seLf .sigma2 = sigma2 


def _ str__(self): 
return 'N(%g, %g)' % (self.mu, self.sigma2) 





才 


而 的 代码 可 以 实例 化 一 个 表示 大 猩猩 体重 分 布 的 Normal 对 象 。 














>>> dist = Normal(90, 7.5**2) 
>>> dist 
N(90, 56.25) 





Normal 提供 Sun 方法 ， 参 数 为 样本 大 小 n， 使 用 公式 (3) 计算 并 返回 n 个 值 之 和 的 分 布 。 


def Sum(self, n): 
return Normal(n * self.mu, Nn * self.sigma2) 


Normal 类 也 可 以 使 用 公式 (1) 进行 乘法 和 除法 运算 。 


def _ mul_(self, factor): 
return Normal(factor * self.myu, factor**2 * self.sigma2) 


def _ div_ (self, divisor): 
return 1 / divisor * self 








因此 ， 我 们 可 以 使 用 下 面 的 代码 ， 计 算 样本 规模 为 9 的 均值 的 抽样 分 布 。 























>>> dist xbar = dist.Sum(9) / 9 
>>> dist_xbar.sigma 
2.5 


和 前 一 市 的 结果 一 样 ， 抽 样 分 布 的 标准 差 为 2.5kg。 最 后 ，Normal 还 提供 Percentile 方法 ， 








计算 置信 区 间 。 


>>> dist_xbar.Percentile(5), dist_ xbar.Percentile(95) 
85.888 94.113 





这 和 之 前 的 结果 一 样 。 本 章 稍 后 还 将 用 到 Normal 类 ， 但 在 进行 具体 编码 之 前 ， 我 们 还 需要 





了 解 更 多 的 分 析 知 识 。 


14.4 ”中 心 极限 定理 


前 面 介绍 过 ， 将 正 态 分 布 中 抽取 的 值 相 加 求 和 ， 得 到 的 结果 符合 正 态 分 布 。 大 多 数 其 他 
的 分 布 类 型 不 具有 这 种 属性 。 如 果 将 从 其 他 分 布 中 抽取 的 值 相 加 ， 结 果 通 常 并 不 符合 分 


























析 分 布 。 





但 是 ， 如 果 从 几乎 任意 分 布 中 抽取 nm 个 值 求 和 ， 随 着 n 的 增加 ， 总 和 的 分 布 会 逐渐 近似 正 











态 分 布 。 
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具体 地 说 ， 如 果 值 的 分 布 具 有 均值 jw， 标 准 差 4s， 那么 其 中 个 值 的 总 和 大 致 符合 
Nnuno )。 




















这 个 结果 称 为 中 心 极限 定理 (Central Limit Theorem，CLT)。 中 心 极限 定理 是 进行 统计 分 
析 最 有 效 的 工具 之 一 ， 但 使 用 时 必须 广 意 以 下 几 点 : 





。 必须 独立 抽取 分 布 中 的 值 ， 如 果 这 些 值 是 相关 的 ， 那 么 CLT 就 不 适用 (这 在 实际 应 用 
中 很 少 遇 到 ) ， 

。 值 必 须 来 自 同一 个 分 布 (但 是 这 个 条 件 可 以 放宽 ) ， 

。 取 值 分 布 的 均值 和 方差 必须 是 有 限 值 ， 因 此 很 多 Pareto 分 布 都 不 能 使 用 CLT; 

。 结果 分 布 的 收敛 速度 取决 于 分 布 的 偏 度 ， 抽 取 自 指数 分 布 的 值 总 和 在 n 很 小 时 就 可 以 收 
你， 抽取 自 对 数 正 态 分 布 的 值 总 和 收敛 则 需要 较 大 的 mn 值 。 


中 心 极限 定理 解释 了 为 何 自然 界 中 存在 如 此 多 的 正 态 分 布 。 生 命 体 的 很 多 特征 都 受 基因 和 
环境 因素 的 影响 ， 这 些 效果 是 累加 的 。 我 们 测量 到 的 特征 是 大 量 微小 效应 的 总 和 ， 因 此 结 
有 果 趋 于 正 态 分 布 。 






































14.5 检验 CLT 


让 我 们 来 进行 一 些 实验 ， 看 看 中 心 极限 定理 如 何 使 用 ， 何 时 不 能 使 用 。 首 先 尝试 指数 
分 布 。 





def MakeExpoSamples(beta=2.0, iters=1000): 
samples = [] 
for n in [1, 10, 100]: 
sample = [np.sum(np.random.exponential(beta, nN)) 
for _ in range(iters)] 
samples.append((n, sample)) 
return samples 


MakeExpoSamples 生成 指数 值 总 和 的 一 个 样本 (这 里 的 “指数 值 ” 指 “ 从 指数 分 布 中 抽取 的 
值 ”)。beta 是 这 个 指数 分 布 的 参数 ，iters 是 待 生成 的 总 和 数量 。 








这 个 函数 需要 从 内 向 外 进行 解读 。 代 码 每 次 调用 np.random.exponential 都 会 生成 一 个 包 
含 n 个 指数 值 的 序列 ， 然 后 求 和 。sample 是 这 些 总 和 的 列表 ， 长 度 为 iters。 

n 和 iters 很 容易 混淆 : n 是 每 个 总 和 中 的 值 的 数量 ，iiters 是 为 了 获得 这 些 和 值 分 布 而 求 
和 的 次 数 。 


MakeExpoSamples 返回 (n，sample) 对 的 一 个 列表 ， 下 面 的 代码 绘制 其 中 的 正 态 概率 图 。 


def NormalPplotSamples(samples, plot=1, ylabel="''): 
for n, sample in samples: 
thinkplot.SubpPlot(plot) 
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thinkstats2.NormalProbabilityPlot(sample) 


thinkplot.Config(title='n=%d' % n, ylabel=ylabel) 
plot += 1 


NormalPlotSamples [以 MakeExpoSamples 返回 的 列表 为 参数 ， 生 成 一 行 正 态 概率 图 。 





14-1 (第 一 行 ) 展示 了 NormalPlotSamples 生成 的 结果 。 当 n=1 时 ， 总 和 仍然 符合 指数 
分 布 ， 因 此 绘制 出 的 正 态 概率 图 不 是 一 条 直线 。 但 当 n=19 时 ， 总 和 大 致 符合 正 态 分 布 。 当 
n=100 时 ， 结 果 已 经 与 正 态 分 布 没有 区 别 了 。 
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14-1: 指数 值 的 总 和 分 布 (第 一 行 ) 以 及 对 数 正 态 值 的 总 和 分 布 (第 二 行 ) 


14-1 (第 二 行 ) 展示 了 对 数 正 态 分 布 产生 的 类 似 结果 。 对 数 正 态 分 布 通常 比 指数 分 布 的 
偏 度 大 ， 因 此 总 和 分 布 的 收敛 速度 较 慢 。 当 n=19 时 ， 图 中 的 正 态 概率 图 完全 不 像 直线 ， 但 
当 n=169 时 结果 就 大 致 符合 正 态 分 布 了 。 





Pareto 分 布 比 对 数 正 态 分 布 偏 度 更 大 。 很 多 Pareto 分 布 的 均值 和 方差 不 是 有 限 值 ， 因 此 不 
能 使 用 中 心 极限 定理 。 图 14-2 (第 一 行 ) 展示 了 Pareto 值 的 总 和 分 布 。 即 使 当 n=169 时 ， 
得 到 的 正 态 概率 图 也 远 非 直线 。 
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图 14-2: Pareto 值 的 总 和 分 布 (第 一 行 ) 以 及 相关 指数 值 的 总 和 分 布 (第 二 行 ) 


前 面 还 提 到 ， 如 果 抽 取 的 值 是 相关 的 ，CLT 也 不 适用 。 对 此 ， 可 以 从 指数 分 布 生成 相关 值 
进行 检验 。 生 成 相关 值 的 方法 为 : (1) 生成 相关 的 正 态 值 ，(2) 适用 正 态 CDF 将 这 些 值 转换 
为 均匀 分 布 ，(3) 使 用 指数 CDF 反 函 数 ， 将 均匀 值 转换 为 指数 值 。 


GenerateCorrelated 使 用 序列 相关 rho， 生 成 包含 n 个 正 态 值 的 迭代 器 。 

















def GenerateCorrelated(rho, n): 
x = random.gauss(0, 1) 
yield x 


sigma = math.sqrt(1 - rho**2) 

for _ in range(n-1): 
x = random.gauss(x*rho, sigma) 
yield x 




















结果 序列 的 第 一 个 值 是 标准 正 态 值 ， 其 后 的 每 个 值 都 依赖 前 一 个 值 。 如 果 前 一 个 值 为 x， 
那么 下 一 个 值 的 均值 为 xx*rho， 方 差 为 1-rho**2。 请 注意 ，random.gauss 的 第 二 个 参数 是 
标准 差 ， 而 不 是 方差 。 


GenerateExpoCorrelated [以 GenerateCorrelated 产生 的 序列 为 参数 ， 将 其 转换 为 指数 分 布 。 




















def GenerateExpoCorrelated(rho, n): 
normal = list(GenerateCorrelated(rho, n)) 
uniform = scipy.stats.norm.cdf(normal) 
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expo = scipy. 
return expo 


stats.expon.ppf(uniform) 














normal 是 相关 正 态 值 的 一 个 列表 。uniform 是 0~1 均匀 分 布 的 值 序列 。expo 是 指数 值 的 相 
关 序 列 。ppf 代表 “百分点 国 数 ”(percent point function) ， 即 CDF 反 函 数 。 


图 14-2 (第 二 行 ) 展示 了 rho=0.9 时 ， 相 关 指数 值 的 总 和 分 布 。 取 值 的 相关 性 使 收敛 速度 





变 慢 ， 但 当 n=169 时 ， 





正 态 概率 图 也 近似 直线 。 由 此 可 见 ， 虽 然 严格 说 来 ， 当 取 值 相关 时 


CLT 不 适用 ， 但 是 在 实际 应 用 中 ， 中 等 程度 的 相关 性 影响 并 不 大 。 





这 些 实验 是 为 了 展示 中 心 极限 定理 的 工作 原理 ， 以 及 中 心 极限 定理 的 不 适用 情况 。 接 下 来 


我 们 要 讨论 如 何 应 用 这 一 定理 。 























14.6 应 用 CLT 











为 了 介绍 中 心 极限 定 到 








的 作用 ， 让 我 们 回顾 一 下 9.3 节 的 示例 : 检验 第 一 胎 和 其 他 新 生 儿 





的 妊娠 时 间 均 值 的 明显 差异 。 这 个 差异 约 为 0.078 周 。 





>>> live, firsts, 
>>> delta = first 
0.078 


others = first.MakeFrames() 
s.prglngth.mean() - others.prglngth.mean() 


请 记 住 假设 检验 的 逻辑 : 计算 一 个 pb 值 ， 即 在 原 假设 条 件 下 ， 所 观测 到 差异 出 现 的 概率 ， 
如 果 这 个 值 很 小 ， 就 认为 观测 到 的 差异 不 太 可 能 是 偶然 产生 的 。 


在 这 个 示例 中 ， 原 假设 为 : 第 一 胎 和 其 他 新 生 儿 的 妊娠 时 间 具 有 相同 的 分 布 。 因 此 ， 我 们 








可 以 使 用 下 面 的 代码 ， 











dist1 = SamplingD 
dist2 = SamplingD 














计算 均值 的 抽样 分 布 。 











istMean(live.prglngth, len(firsts)) 
istMean(live.prglngth, len(others)) 





这 两 个 抽样 分 布 基于 相同 的 总 体 ， 即 所 有 成 功 生 产 的 新 生 儿 。SamplingDistMean 以 值 序列 
和 样本 规模 为 参数 ， 返 回 代表 抽样 分 布 的 Normal 对 象 。 





def SamplingDistM 
mean, var = d 
dist = Normal 
return dist.S 


mean 和 var 分 别 为 dat 











ean(data, nN): 
ata.mean(), data.var() 
(mean, var) 


um(n) / n 
a 的 均值 和 方差 。 我 们 使 用 正 态 分 布 dist 对 数据 进行 近似 。 


在 这 个 示例 中 ， 数 据 不 符合 正 态 分 布 ， 因 此 这 个 近似 并 不 理想 。 但 我 们 随后 计算 了 dist. 








Sum(n) / n， 即 n 个 值 均值 的 抽样 分 布 。 虽 然 数据 不 符合 正 态 分 布 ， 但 根据 中 心 极限 定理 




















均 


i 











直 的 抽样 分 布 是 符合 正 态 分 布 的 。 
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接 下 来 ， 我 们 计算 均值 差异 的 抽样 分 布 。Normalt 类 可 以 使 用 公式 (2) 进行 两 个 分 布 的 减法 。 


def _sub (seLf，other): 
return NormaL(seLf .mu - other .mu， 
seLf .sigma2 + other .stgma2) 





因此 ， 下 面 的 代码 可 以 算出 均值 差异 的 抽样 分 布 。 














>>> dist = dist1 - dist2 
N(0，0.0032) 





得 到 的 分 布 均值 为 0。 我 们 认为 来 自 同 一 分 布 的 两 个 样本 的 平均 均值 相同 ， 因 此 这 个 结果 
非常 合理 。 抽 样 分 布 的 方差 为 0.003 2。 


Normal 提供 Prob 方法 ， 计 算 正 态 CDF。 我 们 可 以 使 用 Prob 方法 ， 计 算 原 假设 条 件 下 ， 值 
为 delta 的 差异 出 现 的 概率 。 









































IT 











>>> 1 - dist.Prob(delta) 
0.084 


这 个 结果 表明 ， 单 侧 检 验 的 p 值 为 0.084。 我 们 还 可 以 计算 双 侧 检验 的 p 值 。 


>>> dist.Prob(-delta) 
0.084 





结果 和 单 侧 检 验 的 p 值 相同 ， 因 为 正 态 分 布 是 对 称 的 。 尾 部 的 和 为 0.168， 与 9.3 节 的 估计 
值 0.17 相符 。 


14.7 相关 检验 


9.5 节 使 用 了 置换 检验 ， 检 验 新 生 儿 体重 与 母亲 年 龄 的 相关 性 ， 认 为 这 一 相关 是 统计 显著 
的 , p 值 小 于 0.001。 








现在 ， 我 们 可 以 用 分 析 方法 完成 同样 的 工作 ， 所 用 的 方法 基于 这 样 一 个 数学 结论 : 对 于 符 
合 正 态 分 布 且 互 不 相关 的 两 个 变量 ， 生 成 大 小 为 的 样本 ,算出 Pearson 相关 系 性 >， 然后 
计算 变换 相关 性 : 











1 符合 参数 为 n-2 的 学 生 t 分 布 (Student’s t-distribution)。t 分 布 是 一 个 分 析 分 布 ， 可 以 使 
用 件 玛 函数 快速 计算 其 CDF。 


我 们 可 以 利用 这 一 结论 ， 计 算 原 假设 条 件 下 ， 相 关 性 的 抽样 分 布 ， 即 : 如 果 从 正 态 分 布 生 
成 不 相关 的 序列 ， 它 们 之 间 相 关 性 的 分 布 如 何 ? StudentCdf 函数 以 样本 规模 n 为 参数 ， 返 
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回 相 关 性 的 抽样 分 布 。 


def StudentCdf(n): 

ts = np.linspace(-3, 3, 101) 
scipy.stats.t.cdf(ts, df=n-2) 
rs= ts / np.sqrt(n - 2 + ts**2) 
return thinkstats2.Cdf(rs, ps) 


已 
wm 
[Ws | Wh] 


ts 是 一 个 NumPy 数组 ， 其 中 包含 1 值 ， 即 变换 相关 性 。ps 包含 相应 的 概率 值 ， 由 Scipy 
包 中 的 学 生 1 分 布 CDF 计算 得 到 。1 分 布 的 参数 df 代表 “自由 度 ”(degree of freedom)。 
本 书 对 自由 度 一 词 不 进行 解释 ， 你 可 以 参考 http:/en.wikipedia.org/wiki/Degrees_of 


freedom_(statistics)。 


从 ts 得 到 相关 系数 要 进行 逆 变 换 。 


r=t/Vn—-2+7? 


得 到 的 结果 是 原 假设 条 件 下 r 的 抽样 分 布 。 图 14-3 展示 了 计算 得 到 的 分 布 以 及 9.5 节 通 过 
重 抽样 得 到 的 分 布 ， 二 者 相差 无 儿 。 虽 然 实 际 分 布 并 不 是 正 态 分 布 ， 但 Pearson 相关 系数 
是 基于 样本 均值 和 方差 。 根 据 中 心 极限 定理 ， 即 使 数据 不 符合 正 态 分 布 ， 这 些 基 于 时 刻 
(moment-based) 的 统计 量 也 是 符合 正 态 分 布 的 。 
































1.0 | , 
学 生 { 分 布 
-一 样本 
0.8 上 
0.6[ 
LU 
[a 
总 
0.4 上 
0.2| 
0.0 
~0.04 -0.03 -0.02 -0.01 000 001 002 003 0.04 
相关 性 














14-3: 不 相关 的 正 态 变量 之 间 相关 性 的 抽样 分 布 


从 图 14-3 中 可 以 看 出 ， 观 测 相关 性 为 0.07， 如 果 变 量 真 的 没有 相关 性 ， 这 个 值 出 现 的 可 能 
性 很 小 。 使 用 分 析 分 布 ， 我 们 可 以 算出 这 个 可 能 性 有 多 小 。 
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t= r * math.sqrt((n-2) / (1-r)) 
p_value = 1 - scipy.stats.t.cdf(t, df=n-2) 




















先 计算 对 应 于 r=9.97 的 t 值 ， 然 后 计算 在 t 处 的 1 分 布 值 ， 结 果 为 6.4e-12。 这 个 示例 展现 
了 分 析 方 法 的 一 个 优势 :可 以 计算 非常 小 的 p 值 ， 但 实际 应 用 中 通常 并 不 会 有 这 样 的 需求 。 


14.8 卡 方 检验 


9.7 市 使 用 了 卡 方 统 计量 ， 检 验 一 个 骨 子 是 否 有 问题 。 卡 方 统计 量度 量 实际 值 与 预期 值 的 
正 态 化 偏差 总 和 。 























0 


卡 方 统 计量 用 途 很 广 ， 原 因 之 一 是 它 在 原 假设 条 件 下 的 抽样 分 布 是 分 析 分 布 ， 最 巧 的 是 1， 
这 个 分 布 就 称 为 卡 方 分 布 。 和 1 分 布 一 样 ， 卡 方 CDF 可 以 使 用 伽 马 函 数 快速 计算 。 


SciPy 提供 了 卡 方 分 布 的 实现 ， 可 以 用 来 计算 卡 方 统计 量 的 抽样 分 布 。 


def ChiSquaredCdf(n) : 
xs = np.linspace(0, 25, 101) 
ps = scipy.stats.chi2.cdf(xs, df=n-1) 
return thinkstats2.Cdf(xs, ps) 
































图 14-4 展示 了 分 析 方 法 得 到 的 结果 以 及 通过 重 抽 样 得 到 的 分 布 。 二 者 非常 近似 ， 尾 部 特别 
贴 合 ， 这 部 分 正 是 人 们 通常 最 关心 的 部 分 。 





1.0 





0.8r 


0.2 上 


























图 14-4: 正常 六 面 般 子 的 卡 方 统计 量 抽样 分 布 

















注 1: 其 实 并 非 巧合 。 
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我 们 可 以 使 用 这 个 分 布 ， 计 算 观 测 到 的 检验 统计 量 chi2 的 p 值 。 


p_value = 1 - scipy.stats.chi2.cdf(chi2, df=n-1) 

















得 到 的 结果 为 0.041， 与 9.7 市 中 的 结果 一 致 。 


卡 方 分 布 的 参数 也 是 “自由 度 "。 在 这 里 ， 正 确 的 参数 值 为 n-1， 其 中 m 为 投掷 结果 概率 表 
的 大 小 : 6。 这 个 参数 有 时 很 难 选择 。 说 实话 ， 我 每 次 都 要 等 到 生成 图 14-4 这 样 的 结果 ， 
将 重 抽样 的 结果 与 分 析 结 果 进 行 比 对 后 ， 才 能 确信 自己 选 对 了 参数 。 









































14.9 讨论 

















这 本 书 主要 讨论 计算 方法 ， 如 重 抽样 和 置换 。 与 分 析 方法 相 比 ， 计 算 方法 具有 以 下 几 个 优势 。 


。 易于 解释 和 理解 。 例 如 ， 统 计 学 入 门 课程 中 最 难 











的 一 个 内 容 是 假设 检验 。 很 多 学 生 无 法 











基础 概念 更 加 清晰 。 


真正 理解 忆 值 是 什么 。 第 9 章 中 介绍 的 方法 模拟 原 假 设 并 计算 检验 统计 量 ， 从 而 可 以 使 


。 稳健 灵活 。 分 析 方 法 经 常 基于 一 些 现实 中 未 必 成 立 的 假设 条 件 。 计 算 方法 的 假设 条 件 较 


少 ， 更 容易 调整 和 扩展 。 


。 可 以 调试 。 分 析 方 法 常常 类 似 一 个 黑 盒 子 :输入 数据 就 得 到 结果 。 但 在 使 用 分 析 方 法 时 ， 
人 们 很 容易 犯 下 难以 察觉 的 错误 ， 很 难 确信 得 到 的 结果 是 正确 的 ， 万 一 结果 错误 也 很 难 




















发 现 问题 。 计 算 方 法 适合 进行 增 量 开发 和 测试 ， 

















得 到 的 结果 更 加 可 信 。 





但 是 计算 方法 也 有 一 个 缺点 : 有 时 速度 很 慢 。 考 虑 到 这 些 优 缺点 ， 我 建议 你 采取 以 下 





(1) 在 探索 阶段 使 用 计算 方法 。 如 果 得 到 了 问题 的 统计 和 解答， 运行 速度 又 还 不 错 ， 就 可 以 收 





J 


(2) 如 果 运 行 时 间 太 长 ， 那 么 想 办 法 进行 优化 ， 使 用 分 析 方 法 就 是 优化 方法 之 一 。 





(3) 如 果 可 以 使 用 分 析 方 法 替代 一 个 计算 方法 ， 那 么 就 以 计算 方法 为 比较 的 基础 ， 用 计算 结 


果 和 分 析 结 果 互 相 进行 验证 。 

















对 于 遇 到 的 绝 大 多 数 问 题 ， 我 只 用 步骤 (1) 就 能 解决 。 


14.10 ”练习 
本 章 练习 的 参考 答案 位 于 chap14soln.py 中 。 


。 练习 14.1 


5.4 节 提 到 ， 成 人 体重 大 致 符合 对 数 正 态 分 布 。 对 此 ， 一 个 可 能 的 解释 是 ， 一 个 人 每 年 增 
加 的 体重 与 当时 的 体重 成 比例 。 这 样 的 话 ， 成 人 体重 就 是 大 量 因子 的 乘积 。 
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WY=Woajij 六 
其 中 w 是 成 人 体重 ，w 为 出 生 时 的 体重 ,ff 为 第 i 年 的 体重 增加 因子 。 
乘积 的 对 数 是 因子 对 数 之 和 。 











logw=logwotlogfi+logfy+*…*+logf, 
根据 中 心 极限 定理 ， 当 n 很 大 时 ，logw 大 致 符合 正 态 分 布 ， 因 此 w 符合 对 数 正 态 分 布 。 


为 了 对 此 现象 进行 建 模 ， 请 为 选择 一 个 看 似 合 理 的 分 布 ， 然 后 从 出 生 时 体重 的 分 布 中 选 
择 一 个 随机 值 ， 从 了 的 分 布 中 选择 一 列 因 子 ， 计 算 这 些 值 的 乘积 ， 生 成 成 人 体重 的 一 个 样 
本 。n 需要 为 多 大 时 ， 成 人 体重 分 布 才 会 收敛 到 对 数 正 态 分 布 ? 





























。 练习 14.2 
14.6 节 使 用 中 心 极限 定理 ， 得 到 在 两 个 样本 来 自 同一 总 体 的 原 假 设 条件 下 ， 均 值 差异 5 的 
抽样 分 布 。 


我 们 也 可 以 使 用 这 个 分 布 ， 得 到 估计 值 与 置信 区 间 的 标准 误差 .但 结果 只 是 大 致 正确 。 为 
了 得 到 更 精确 的 结果 ， 我 们 应 该 计算 当 样 本 来 自 不 同 总 体 这 一 备 责 假设 条 件 下 ， 均 值 差 异 
6 的 抽样 分 布 。 


请 计算 这 一 分 布 ， 并 用 这 个 分 布 计算 均值 差异 的 标准 误差 和 90% 置信 区 间 。 


















































。 练习 14.3 
在 最 近 的 一 篇 论文 中，Stein 等 研究 者 调查 了 一 项 干预 方法 的 效果 ， 这 一 方法 用 于 缓解 学 
生 工 程 小 组 中 按 性 别 分 配 任务 的 现象 。 


在 干预 前 后 ， 学 生 都 参与 了 一 项 调查 ， 对 自己 在 课堂 项 目 各 方面 所 做 的 贡献 进行 评分 ， 评 
分 为 7 分 制 。 

在 干预 前 ， 男 性 学 生 对 项 目 编程 方面 的 打分 高 于 女性 学 生 。 男 性 学 生平 均 评 分 为 3.57， 标 
准 误差 为 0.28， 女 性 学 生平 均 评分 为 1.91， 标 准 误差 为 0.32。 

请 计算 这 一 性 别 差 异 (均值 差 ) 的 抽样 分 布 ， 并 检验 这 一 差异 是 否 统计 显著 。 前 面 给 出 了 
估计 均值 的 标准 误差 ， 因 此 无 需 知道 样本 规模 就 能 算出 抽样 分 布 。 



























































在 干预 实施 后 ， 这 一 性 别 差异 变 小 了 : 男 学 生 的 平均 评分 为 3.44 (SE 0.16) ; 女 学 生 的 平 
均 评 分 为 3.18 (SE 0.16) 。 请 再 次 计算 性 别 差异 的 抽样 分 布 ， 并 进行 检验 。 


最 后 ， 请 佑 计 性 别 差异 变化 。 这 一 变化 的 抽样 分 布 如 何 ? 是 否 统计 显著 ? 








注 1:“Evidence for the persistent effects of an intervention to mitigate gender-sterotypical task allocation within 





student engineering teams,”Proceedings of the IEEE Frontiers in Education Conference, 2014. 
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封面 介绍 


本 书 封面 上 的 动物 是 一 只 射 水 鱼 。 这 种 鱼 能 用 嘴 喷 出 水 滴 击 落 陆 生 昆 虫 和 小 动物 ， 进 行 捕 
食 。 射 水 鱼 有 7 种 ， 在 印度 、 菲 律 宾 、 澳 大 利 亚 和 波利尼西亚 都 有 分 布 。 





射 水 鱼 的 口腔 很 深 ,从 嘴 到 背鳍 的 空间 形成 一 条 直线 ， 嘴 部 可 以 伸 出 ， 下 颌 外 突 。 这 种 
独特 的 嘴 部 构造 就 是 射 水 鱼 的 秘密 武器 。 射 水 鱼 用 知 头 的 住 口腔 顶部 的 窄 档 ,收缩 鳃 盖 ， 
就 可 以 激 射 出 一 股 水 流 ， 射 程 可 达 5 米 。 当 射 水 鱼 长 到 2.5 厘米 长 时 ， 就 开始 学 习 如 何 射 
水 。 最 初 小 鱼 们 的 命中 率 并 不 高 ， 需 要 成 群 结 队 进 行 捕食 ， 但 随 着 经 验 的 积累 ， 技 能 会 不 
断 提 高 。 


射 水 鱼 的 眼睛 构造 也 得 天 独 厚 ， 视 力 奇 佳 ， 并 能 够 在 瞄准 时 修正 水 与 空气 之 间 的 光线 折射 
角度 。 射 水 鱼 一 旦 发 现 猎物 ， 就 会 转动 眼睛 ， 使 目标 的 图 像 落 入 视野 的 特定 位 置 。 当 昆 束 
落 入 攻击 范围 时 ， 射 水 鱼 经 常会 跃 出 水 面 ， 将 其 吞 入 口中 。 





射 水 鱼 体型 通常 很 小 ， 只 有 5~10 厘米 长 ， 但 可 以 长 到 40 厘米 。 很 多 水 族 馆 都 有 射 水 鱼 。 


O’Reilly 封面 中 的 许多 动物 都 处 于 濒临 灭绝 的 境地 。 它 们 对 于 我 们 这 个 世界 都 是 至 关 重 要 
的 。 如 果 你 想 更 多 地 了 解 怎样 帮助 它们 ， 请 浏览 http://animals.oreilly.com 网 站 。 


本 书 封面 图 片 来 自 Dover。 
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图 灵 社 区 ITuring.cn 





最 前 沿 的 IT 类 电子 书 发 售 平台 


电子 出 版 的 时 代 已 经 来 临 。 在 许多 出 版 界 同 行 还 在 犹豫 入 得 的 时 候 ， 图 灵 社 区 已 经 采取 实 
际 行动 拥抱 这 个 出 版 业 巨 变 。 作 为 国内 第 一 家 发 售 电子 图 书 的 开 类 出 版 商 ， 图 灵 社 区 目前 为 读者 
提供 两 种 DRM-free 的 阅读 体验 :在线 阅读 和 PDF。 

相 比 纸 质 书 ， 电 子 书 上 共有 许多 明显 的 优势 。 它 不 仅 发 布 快 ， 更 新 容易 ， 而 且 尽 可 能 采用 了 彩 
色 图 片 ( 即使 有 的 书 纸 质 版 是 黑白 印刷 的 )。 读 者 还 可 以 方便 地 进行 搜索 、 剪 贴 、 复 制 和 打印 。 

图 灵 社 区 进一步 把 传统 出 版 流程 与 电子 书 出 版 业务 紧密 结合 ， 目 前 已 实现 作 译 者 网 上 交 
稿 、 编 辑 网 上 审 稿 、 按 章 发 布 的 电子 出 版 模式 。 这 种 新 的 出 版 模式 ， 我 们 称 之 为 “敏捷 出 
版 ”， 它 可 以 让 读者 以 较 快 的 速度 了 解 到 国外 最 新 技术 图 书 的 内 容 ， 弥 补 以 往 翻 译 版 技术 书 
“出 版 即 过 时 ”的 缺憾 。 同 时 ， 敏 捷 出 版 使 得 作 、 译 、 编 、 读 的 交流 更 为 方便 ， 可 以 提前 消炎 
书稿 中 的 错误 ， 最 大 程度 地 保证 图 书 出 版 的 质量 。 
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优惠 提示 : 现在 购买 电子 书 ， 读 者 将 获 赠 书 款 20% 的 社区 银子 ， 可 用 于 免 换 纸 质 样 书 。 


一 一 最 方便 的 开放 出 版 平台 


图 灵 社 区 向 读者 开放 在 线 写 作 功 能 ， 协 助 你 实现 自 出 版 和 开源 出 版 的 梦想 。 利 用 “合集 ” 
功能 ， 你 就 能 联合 二 三 好 友 共 同 创作 一 部 技术 参考 书 ， 以 免费 或 收费 的 形式 提供 给 读者 。( 收 
费 形式 须 经 过 图 灵 社 区 立项 评审 。 ) 这 极 大 地 降低 了 出 版 的 门槛 。 只 要 你 有 写作 的 意愿 ， 图 灵 
社区 就 能 帮助 你 实现 这 个 梦想 。 成 熟 的 书稿 ， 有 机 会 人 选 出 版 计划 ， 同 时 出 版 纸 质 书 。 

图 灵 社 区 引进 出 版 的 外 文 图 书 ， 都 将 在 立项 后 马上 在 社区 公布 。 如 果 你 有 意 翻译 哪 本 图 
书 ， 欢 迎 你 来 社区 申请 。 只 要 你 通过 试 译 的 考验 ， 即 可 签约 成 为 图 灵 的 译 者 。 当 然 ， 要 想 成 功 
地 完成 一 本 书 的 翻译 工作 ， 是 需要 有 坚强 的 毅力 的 。 


最 直接 的 读者 交流 平台 


在 图 灵 社 区 ,你 可 以 十 分 方便 地 写作 文章 、 提 交 勘 误 、 发 表 评 论 ， 以 各 种 方式 与 作 译 者 、 
辑 人 员 和 其 他 读者 进行 交流 互动 。 提 交 勘 误 还 能 够 获 赠 社 区 银子 。 

你 可 以 积极 参与 社区 经 常 开展 的 访谈 、 乐 译 、 评 选 等 多 种 活动 ， 赢 取 积 分 和 银子 ， 积 累 个 人 
声望 。 
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图 灵 最 新 重点 图 书 


了 > 大 数据 权威 著作 全 新 升级 版 ! 
> 第 1 版 畅销 40000 册 ! 


图 灵 教 


[TD 图 灵 本 启 设 计 从 书 


本 书 源 自作 者 在 斯 坦 福 大 学 教授 的 “海量 数据 挖掘 ” 
( CS246: Mining Massive Datasets ) 课程 ， 第 1 版 上 市 以 来 
受到 读者 广泛 欢迎 和 认可 。 本 书 以 大 数据 环境 下 的 数据 
挖掘 和 机 融 学 习 为 重点 ， 全 面 介 绍 了 实践 中 行 之 有 效 的 
数据 处 理 算法 ， 是 在 校 学 生 和 相关 从 业 人 员 的 必 备 读物 。 























Mining of Massive Datasets 
Second Editio 





大 规模 数据 挖掘 
也有 证 式 处 理 (26 


的 大 数据 (第 2 版 ) 
ey 书号 : 978-7-115-39525-2 
定价 : 79.00 元 





O'REILLY OREILLY 
[ED agratus CY snareitus I aeraitas 


pA Sn Olelele)sl 
命令 行 中 的 框架 发 


数据 科学 实战 ) se 
= 





Rachalschutt Cathy ONel 机 
二 








风 hci 和 RN 下 后 Ha rom 生疏 网 rammed 二 人 











数据 科学 实战 命令 行 中 的 数据 科学 Swift 与 Cocoa 框架 开发 
书号 : 978-7-115-38349-5 书号 : 978-7-115-39168-1 书号 : 978-7-115-39187-2 
定价 : 79.00 元 定价 : 49.00 元 定价 : 89.00 元 
| 
[3 senses ED emi 


Node 与 
Express 开 发 


WEB DEVELOPMENT WITH NODE AND EXPRESS 


Ethan Brown 二 
要 文理 


BRS 


Node 与 Express 开发 
书号 : 978-7-115-38033-3 
定价 : 69.00 元 





[TD sarairus 





Java 8 函数 式 编程 
书号 : 978-7-115-38488-1 
定价 : 39.00 元 





学 习 响 应 式 设计 


LEARNING RESPONSNE WEB DESIGN 






网 "rammn 多 人 Rt 





学 习 响 应 式 设计 
书号 : 978-7-115-38973-2 
定价 : 69.00 元 





关注 图 灵 教 育 关注 图 灵 社区 
iTuring.cn 


在 线 出 版 电子 书 《 码 农 》 杂 志 图 灵 访 谈 …… 


名 


QQ 联系 我 们 


灵 读 者 官方 群 I: 218139230 
灵 读 者 官方 群 I[: 164939616 


一 一 一 一 微 博 联系 我 们 





说 











到 














官方 账号 ，@ 图 灵 教 育 @ 图 灵 社 区 @ 图 灵 新 知 
市 场合 作 ，@ 图 灵 责 野 

写作 本 版 书 ，@ 图 灵 小 花 @ 图 灵 张 霞 

翻译 英文 书 ， @ 朱 痢 ituring @ 楼 伟 珊 

翻译 日 文书 或 文章 : @ 图 灵 乐 声 

翻译 韩文 书 ，@ 图 灵 陈 曦 

电子 书 合作 : @hi_jeanne 

图 灵 访 谈 /《 码 农 》 杂 志 : @ 李 盼 ituring 

加 入 我 们 ，@ 王 子 是 好 人 


几 


微 信 联 系 我 们 
































图 灵 教 育 图 灵 访 谈 


turingbooks ituring_interview 


COREILLY 





统计 思维 : 程序 员 数 学 之 概率 统计 (第 2 版 ) 


现实 工作 中 ， 人 们 常常 需要 用 数据 说 话 。 可 是 ， 数 据 自己 不 会 说 话 ， 需 
要 人 对 它 进行 分 析 和 挖掘 才能 找到 有 价值 的 信息 。 概 率 统计 是 数据 分 析 
的 通用 语言 ， 是 大 数据 时 代 预 测 未 来 的 根基 。 如 果 你 有 编程 背景 ， 就 能 
以 概率 和 统计 学 为 工具 ， 将 数据 转化 为 有 用 的 信息 和 知识 ， 让 数据 说 
话 。 本 书 介 绍 了 如 何 借助 计算 而 非 数 学 方法 ， 使 用 Python 语言 对 数据 进 
行 统计 分 析 。 


通过 书 中 有 趣 的 案例 ， 你 可 以 学 到 探索 性 数据 分 析 的 整个 过 程 ， 从 数据 
收集 和 生成 统计 量 ， 到 发 现 模式 和 检验 假设 。 你 还 将 探索 概率 分 布 、 概 
率 法 则 、 可 视 化 技术 ， 以 及 其 他 许多 工具 和 概念 。 


这 一 版 内 容 较 第 1 版 有 很 多 改动 ， 并 且 新 增 了 回归 、 时 间 序 列 分 析 、 生 存 
分 析 和 分 析 方 法 章节 ， 以 丰富 你 的 知识 。 


通过 学 习 本 书 ， 你 将 能 够 : 

加 编写 测试 代码 深入 理解 概率 论 和 统计 学 ， 

目 运行 实验 检验 统计 行为 特征 ， 如 生成 服从 各 种 分 布 的 样本 ; 
是 通过 模拟 理解 数学 上 艰 涩 的 概念 ， 

目 学 习 贝 叶 斯 估计 等 实用 内 容 ， 


四 用 Python 从 大 部 分 数据 源 导入 数据 ， 不 依赖 由 统计 工具 清洗 的 格 
式 化 数据 ; 


四 用 统计 推理 解读 现实 世界 中 的 数据 。 
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“这 是 一 本 介绍 Python 数 据 分 


析 的 内 容 最 为 全 面 的 书 。 数 
据 分 析 师 也 可 通过 此 书 了 解 
现代 编程 语言 提供 的 工具 ， 
并 提升 技能 。 这 还 是 一 本 优 

秀 的 现代 统计 学 教程 。” 
一 一 Skipper Seabold 
StatsModels 作 者 





Allen B. Downey 是 富兰克林 欧 
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算 机 科学 博士 学 位 。Downey 已 
出 版 十 余 本 技术 书 ， 包 括 Think 
Python、 Think Bayes、 Think 
Complexity 等 。 
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如 果 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contact@turingbook.com ， 会 有 编辑 或 作 译 者 协助 
答疑 。 也 可 访问 图 灵 社 区 ， 参 与 本 书 讨论 。 
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